Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

csütörtök 20:49

A világegyetem első küllős spirálgalaxisára bukkantak

💫 Eddig ismeretlen, több mint 11,5 milliárd éve létező küllős spirálgalaxist fedeztek fel, amely már alig 2 milliárd évvel az ősrobbanás (Big Bang) után kialakult...

csütörtök 20:33

A Rubin Obszervatórium felfedezte a valaha mért leggyorsabb óriásaszteroidát

🚀 A Vera C. Rubin Obszervatórium mindössze hét éjszaka alatt végzett megfigyelései során lenyűgöző felfedezés született: sikerült azonosítani egy hatalmas, rekorddöntő aszteroidát, amely elképesztő sebességgel forog...

csütörtök 20:18

Az űrszemét-bomba ketyeg: három nap múlva jön a káosz?

💥 A műholdak rohamosan közelednek egymáshoz a Föld körül, és sosem voltunk még ilyen közel egy katasztrofális ütközési láncreakcióhoz...

csütörtök 20:02

Az Android 17-tel végre elrejtheted a privát értesítéseket

🔒 Az Android 17 várhatóan komoly lépést tesz a magánszféra védelmében: végre natív alkalmazászár funkcióval érkezhet...

csütörtök 19:33

A BlackBerry visszatér: teszten a Clicks Communicator

Lényeges szempont, hogy a régi BlackBerry-rajongók újra örülhetnek: megjelent egy olyan okostelefon, amely a fizikai billentyűzet élményét hozza vissza a modern Android világába...

csütörtök 19:17

Az emberiség 60 ezer éve mérgezett nyílhegyekkel vadászott

Új kutatások szerint az emberek sokkal hamarabb kezdték mérgezett nyílhegyeket használni, mint azt korábban gondolták – az eddigi legrégebbinek hitt, 6800 éves példányok helyett már 60 ezer évvel ezelőtt is használtak ilyen halálos fegyvereket Dél-Afrikában...

csütörtök 19:01

A Copilot már a vásárlásra is rábeszél

A Microsoft új funkcióval bővíti Copilot chatbotját: mostantól közvetlenül a beszélgetés során lehet vásárolni, anélkül, hogy külön webshopokra vagy boltokra lenne szükség...

csütörtök 18:50

Az MI-támadások végtelen körforgása: a ChatGPT ismét adatokat szivárogtat

🕵 Bár a nagy nyelvi modellek, mint a ChatGPT, látványos fejlődésen mentek keresztül az elmúlt években, a biztonsági kihívásokkal továbbra is küzdenek...

csütörtök 18:34

Az akihabarai bolt kétségbeesetten könyörög régi PC-kért: mindenből kifogytak

💻 Tokió híres elektronikai negyedében, Akihabarában most már szó szerint kincset érnek a régi PC-k...

csütörtök 18:17

Az MI-verseny új fejezete: a Marvell felvásárolta az XConn‑t

A Marvell nagy dobással jelentkezett: megvásárolta az XConn Technologies-t, ezzel két kulcsfontosságú technológiai területen is előrelépett...

csütörtök 18:01

Az OpenAI elleni perben Musk beszáll a harcba

Elon Musk, a világ leggazdagabb embere és az OpenAI egyik társalapítója, most bíróságon harcol a ChatGPT fejlesztői ellen, mert szerinte a csapat megszegte eredeti nonprofit küldetését, amikor profitorientált vállalattá alakult...

csütörtök 17:49

A perzselő ausztrál hőség újabb pusztító bozóttüzekkel fenyeget

Ausztráliát most olyan hőhullám sújtja, amely súlyos bozóttüzek kitörésével fenyeget, miután a hőmérséklet az ország délkeleti részein több helyen is 40 °C fölé emelkedett...

csütörtök 17:34

Az akkumulátorok újrahasznosítása a jövőnk záloga

🔋 Hihetetlen, de igaz, hogy az életünk egyre nagyobb részét akkumulátorok hajtják – legyen szó a zsebünkben lapuló okoseszközről, vagy éppen adatközpontokról, katonai rendszerekről, mikrohálózatokról...

csütörtök 17:17

Az új Volvo EX60 644 km-t megy, és villámgyorsan tölt

🚗 A hónap végén mutatkozik be a Volvo legújabb elektromos SUV-je, az EX60, amely több úttörő megoldást hoz a villanyautók világába...

csütörtök 17:03

Az MI-modellek egyre inkább ugyanúgy látják a világot

👁 Érdemes megvizsgálni, miként érzékeli és dolgozza fel a valóságot az MI az emberi agyhoz hasonlóan...

csütörtök 16:49

Az Exchange Online megint döcög: leáll az IMAP4-es levelezés

📦 A Microsoft újabb leállással küzd az Exchange Online-ban, amely miatt sok felhasználó nem tudja elérni postafiókját IMAP4-en keresztül...

csütörtök 16:34

Visszatér az egyensúly az ingatlanpiacra – de meddig?

🏡 Az utóbbi negyedévben az amerikai ingatlanpiac lassú, de jelentős átalakuláson megy keresztül: a vásárlók és eladók közötti erőviszonyok kiegyenlítődnek...

csütörtök 16:18

A pénztárcabarát okosizzók párbaja: Lifx vagy Philips Hue Essential?

💡 A CES kiállításon idén is a legnagyobb techcégek legújabb termékei kaptak főszerepet...

csütörtök 16:02

Az új Gmail mindent tud: MI-válaszok, nyelvi ellenőrzés – nem ingyen

📧 A Gmail mostantól olyan okosan válaszolja meg a leveleidben feltett kérdéseidet, mint egy Google-keresés – csak épp MI-vel és fizetős verzióban...