Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

szombat 18:40

Leghaszontalanabb amerikai szlengek és idiómák

“Wallet biopsy” Szó szerint: pénztárca-biopszia 💸, amikor egy orvos vagy egészségügyi szolgáltató előbb ellenőrzi 🔬, mennyi pénzed / biztosításod van, és aztán dönti el, milyen vizsgálatot kapsz...

csütörtök 18:24

Penrose szám: A bizonyíték Isten létére?

Sir Roger Penrose brit matematikus és elméleti fizikus, aki a fekete lyukak szingularitásának és az általános relativitáselmélet új matematikai alapjainak feltárásáért kapott Nobel-díjat, az 1970-es években sokkoló, a tudományos világot megosztó tézist közölt...

MA 12:34

A hullámzó kínai gyártás: fordulat jön, vagy újabb zuhanás?

📈 A kínai gyáripar némileg javult novemberben, de továbbra is zsugorodik, immár nyolcadik hónapja...

MA 11:49

Az Asahinál példátlan adatlopásra derült fény

🔒 Egy szeptemberi kibertámadás miatt az Asahi Group Holdings, Japán legnagyobb sörgyártója, közel 1,9 millió ember adatait veszítette el...

MA 11:33

A szoftverhiba földre parancsolta az Airbus gépeit

Több mint 6000 Airbus A320-as gép földre kényszerült világszerte, miután a gyártó felismerte, hogy az intenzív naptevékenység miatt szoftverhiba fenyegeti a repülésbiztonságot...

MA 11:18

Az információ fényen utazik: közel a kvantuminternet kora

Jellemző példa erre, hogy a kvantumteleportáció területén sikerült olyan áttörést elérni, amely az információ fény segítségével történő átvitelét teszi lehetővé – ráadásul teljesen különálló kvantumpontok között...

MA 10:53

Az öt legjobb belépő szintű fényképezőgép vadfotózóknak 2025-ben

📷 A természetfotózás varázsa nehezen utolérhető – vadállatot, madarat vagy akár egy villámgyors mozdulatot elkapni mindig különleges élmény...

MA 10:37

Az ősi dinoszaurusz-múmia átírja a tankönyveket: paták és taréj

Megvizsgálandó, hogy milyen új titkokat rejtenek a dinoszaurusz-múmiák, egy amerikai kutatócsoport most minden eddiginél részletesebb, teljes testű rekonstrukciót alkotott az Edmontosaurus annectensről...

MA 10:29

A ChatGPT új kedvenc funkciója nem az, amire számítasz

💡 Hároméves lett a ChatGPT, és ennek örömére az OpenAI végre elárulta, melyek a legnépszerűbb funkciók a világ kedvenc MI-eszközében...

MA 10:22

Az RSV megelőzése átírhatja az asztma jövőjét

Új kutatások szerint ha sikerül megóvni az újszülötteket a légúti syncytialis vírus (RSV)-fertőzéstől, azzal drasztikusan csökkenthető a későbbi asztma kialakulásának kockázata...

MA 10:02

Az új Deadpool VR: még egy Marvel-agyrágó?

😎 Felmerül a kérdés, hogy lehet-e még újat mutatni a Marvel-univerzum fáradtnak tűnő világában egy VR-játékkal, amelyben Deadpool kapja a főszerepet...

MA 09:57

A Pikipek-láz visszatér: mindent a Pokémon GO Community Day-ről

🐢 November 30-án, vasárnap 14 és 17 óra között jön a Pikipek Community Day a Pokémon GO-ban, amikor szó szerint ellepnek minket a Pikipekek – és a szerencsésebbek fényes (shiny) változatot is kifoghatnak...

MA 09:21

Az olasz MI-pajzs: láthatatlan kupola óvja a városokat

Az olasz Leonardo védelmi vállalat bemutatta legújabb fejlesztését, egy MI-vezérelt védelmi kupolát, amely a városok és kulcsfontosságú infrastruktúrák védelmét szolgálja...

MA 09:15

A 401(k) nélkül is van élet: így gyűjts okosan nyugdíjra

💰 A nyugdíjcélú megtakarítások elengedhetetlenek, ha gondtalan időskort szeretnél. A legtöbben automatikusan 401(k)-t használnak, ha a munkahelyükön elérhető, hiszen ez bérlevonással gyűlik, így észrevétlenül nő a megtakarítás, ráadásul sok cég extra hozzájárulást is ad...

MA 09:08

A Batman-hatás: ahol megjelenik, megnyílnak a pénztárcák

Olasz kutatók meglepő eredményre jutottak: ha valaki Batman-jelmezben bukkan fel egy milánói metrókocsiban, az utasok kétszer olyan gyakran adják át a helyüket egy várandós nőnek, mint amikor Batman nincs jelen...

MA 09:01

A Playdate-en végre játékos hangüzeneteket küldhetsz

Megjelent egy aranyos hangüzenet-küldő alkalmazás a Playdate kézikonzolra, amely kifejezetten akkor jön jól, ha a baráti vagy a családi körödben többen is rendelkeznek ezzel a kütyüvel...

MA 08:50

Az igazi Linux-forradalom: sokkal többen használják, mint gondolnád

A legújabb statisztikák szerint a Linux csupán a számítógépek 3,49%-án fut, de ha jobban megnézzük, az adatokban az „ismeretlen” kategória további 4,21%-ot tesz ki...

MA 08:43

Az ember és a mesterséges intelligencia: szövetség vagy zűrzavar?

🤖 Az MI forradalma teljesen átírja a munkavégzés szabályait. Az évek során az MI-k megtanultak olvasni, írni, dalokat szerezni, sőt helyettünk vásárolni is...

MA 08:29

Az évszázad szenzációja jöhet: tényleg megvan a sötét anyag?

💫 Vizsgálják, hogy sikerült-e végre kézzelfogható nyomára bukkanni a világegyetem egyik legnagyobb rejtélyének, a sötét anyagnak...