2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

kedd 21:56

A JBL Live 4 már érintőkijelzős, jobb hanggal, ANC-vel és hívásminőséggel

🎧 Fontos kérdés, hogy tényleg sikerülhet-e a JBL-nek felrázni a vezeték nélküli fülhallgatók piacát az új Live 4 sorozattal...

kedd 21:45

Az Xbox–Discord összefogás miatt most tényleg megéri a Nitro

💬 Jelentős változás érkezett a Discord életébe: mostantól a Nitro előfizetéshez extra költség nélkül jár a Game Pass Core kezdőcsomag, amely több mint 50 különféle játékhoz nyújt hozzáférést...

kedd 21:35

Az amerikai PlayStation-játékosoknak pénz járhat – aprópénzre számíts

💰 Számos amerikai PlayStation-játékos részesülhet abból a közel 2,8 milliárd forintos (8 millió dolláros) összegből, amit a Sony egy kaliforniai csoportos per során kötött egyezség keretében fizet ki...

APP
kedd 09:12

APPok, Amik Ingyenesek MA, 5/12

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Diamond Painting Logbook (iPhone/iPad)A teljesen megújult Diamond Painting Logbook alkalmazás könnyedén átláthatóvá és rendszerezetté teszi a gyémántfestés szerelmeseinek projektjeit...

kedd 06:05

Történelmi események a mai napon (Május 12.)

Viharos fordulatok, trónok és lázadások: ezen a napon koronázások, alapítások és sorsfordító politikai döntések alakították Európa és a világ történetét...

APP
hétfő 09:12

APPok, Amik Ingyenesek MA, 5/11

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Crazy Caps (iPhone/iPad)Ez a fizika alapú match-3 kirakós játék üdítően új színt visz a műfajba: célunk, hogy három vagy több azonos elemet helyezzünk egymás mellé, miközben a pályák változatos kihívásaival és a szokatlan, kreatív dizájnnal találkozunk...

hétfő 07:50

A NYT Connections ma is próbára teszi a szókincsedet

💡 Minden hétfőn új kihívást jelent a Connections nevű szókirakó, ahol a feladat négyes csoportokat alkotni közös jellemzők szerint...

hétfő 07:43

Az amerikai kriptopiac fordulóponton: Miami után új szabályok jönnek

Idén Miamiban, a Consensus 2026 konferencia zárása után minden a digitális eszközök új szabályozási hulláma körül forgott...

hétfő 07:29

A Team Fortress 2 zombimód, amit elsőre hivatalosnak néznél

Ha gimnazista koromban jelent volna meg a Mann Versus Zombies, valószínűleg sosem érettségiztem volna le...

hétfő 07:22

Az MI-eszközök mérgezése súlyos vállalati biztonsági rést leplez le

Érdemes megvizsgálni, hogy a vállalati környezetben használt MI-alapú ügynökök hogyan választják ki eszközeiket, és hol rejtőznek a legnagyobb veszélyek...

hétfő 07:15

A PC Gamer miatt lopják a cipődet a Kingdom Come: Deliverance 2-ben

Mindenki ismeri azt az érzést, amikor egy szerepjátékban furcsa dolgokat produkál a játékvilág, de kevesen gondolták volna, hogy a cipőlopás valaha komoly téma lesz egy fejlesztőcsapat életében...

hétfő 07:08

Az új őrület: a Hazárdjáték a barátokkal egymilliót fogyott egy hét alatt

Felmerül a kérdés, hogy mi teszi ennyire népszerűvé azokat a játékokat, amelyek lehetőséget adnak arra, hogy közösen bolondozzunk a barátainkkal, anélkül, hogy kimozdulnánk otthonról...

hétfő 07:01

Az NYT Strands mai feladványa: totális káoszparádé

😵 Megvizsgáljuk, mennyire állítja próbára a játékosokat az NYT Strands mai, 799-es számú kihívása...

hétfő 06:57

A Roblox AI-val erőltetné a fotórealizmust, a fejlesztők kétkednek

A Roblox az egyszerű grafika világában vált népszerűvé a fiatalabb játékosok körében...

hétfő 06:51

Az Edifier M90: hangfal, ami kiváltja a komplett hifi-rendszert, mindennel csatlakozik

🎧 Érdekes felvetés, hogy kell-e egy egész arzenál különféle hangfalból, ha létezik egyetlen pár, amely egyszerre képes kiszolgálni a nappali, a tévé, az asztali gép vagy akár a lemezjátszó igényeit...

hétfő 06:43

Az agyrobbantó mai Quordle: csak a szerencsések boldogultak

Ma reggel sem volt könnyű dolgom a Quordle napi kihívásával: a négy szó együtt mind az öt különböző magánhangzót tartalmazta, ráadásul egyik válaszban sem volt ismétlődő betű, és nem is szerepelt bennük olyan ritka betű, mint a Q, Z, X vagy a J...

hétfő 06:35

A 2013 óta néma bitcoin-bálna megmozgatott 40 millió dollárnyi BTC-t

Vasárnap egy régóta néma bitcoin-bálna ismét felébredt, és 40 millió dollárnak megfelelő bitcoint utalt át (kb...

hétfő 06:29

Az utolsó igazán mainstream multiplatform autóverseny-sorozat: tarol a Forza Horizon 6

A Forza Horizon 6 elképesztő sikert aratott már jóval a megjelenés előtt: április elejétől már több mint 500 000 elővásárlásnál tartott, és ez azóta várhatóan duplájára nőtt...

hétfő 06:22

A Riválisok 2: Forró botrányok, mégis fojtogató az első három rész

🔥 Rutshire mesés és botrányokkal átszőtt világa ismét visszatért, hogy újra elénk tárja a szokásos csábítást, intrikát és könnyed erotikát...

hétfő 06:05

Történelmi események a mai napon (Május 11.)

Röviden: ezen a napon Kolumbusz Kristóf negyedszer és utoljára útnak indult az Újvilág felé, Spencer Perceval brit miniszterelnököt meggyilkolták, Luxemburg függetlenné vált, az izraeli Mossad ügynökei elfogták Adolf Eichmannt, miközben katasztrófák és háborús lépések rázták meg a világot...

vasárnap 20:46

A kígyók titka: így veszítették el lábaikat az evolúció során

🐍 Hatalmas és egészen apró, mérges és óriáskígyók, surranók és úszók élnek a Föld legkülönbözőbb zugaiban – a kígyók eredetének története ma izgalmasabb, mint valaha...

vasárnap 20:35

A QWOP tervezője nem fejezi be, mégsem törli a Baldur’s Gate 3-at

🎮 Bennett Foddy neve sokaknak ismerősen csenghet: olyan játékok kötődnek a nevéhez, mint a QWOP vagy a Getting Over It, amelyek előszeretettel kínozzák a játékosok türelmét különleges irányításukkal és nehézségükkel...

vasárnap 20:24

A The Sims 3: éld meg a saját történeted!

Fontos kérdés, hogy mit tud nyújtani a The Sims 3 egy évtizeddel az első rész óta: vajon valami forradalmit, vagy csupán csiszoltabb változatot kapunk?..

vasárnap 20:13

Az amerikai FIFA-vb meccseit az iráni konfliktus miatti terrorkockázat fenyegeti

Fontos kérdés, hogy mennyire sikerül biztonságban lebonyolítani azt a 78 mérkőzést, amelyet a tervek szerint az Egyesült Államok 11 nagyvárosában rendeznek majd...

vasárnap 20:01

Az MI-vezérelt kereskedelem kriptóra épül – mondja a PayPal és a Google

A digitális kereskedelem új korszakának hajnalán a legnagyobb technológiai szereplők szerint a kriptovaluta-alapú fizetések jelentik a jövőt...

vasárnap 19:56

A Bored Ape NFT-k visszatérnek: újra kockáztat a kriptópiac

Sokan már temették az NFT-piacot, de a Bored Ape Yacht Club (BAYC) gyűjtemény árfolyama gyors ütemben, egy hónap alatt a duplájára nőtt...

vasárnap 19:45

Az El Clásico, ahol a bajnoki cím a tét

A vasárnapi El Clásico izgalmai ezúttal a Camp Nou stadionjában bontakoznak ki, ahol a Barcelona mindössze egyetlen pontra van attól, hogy bebiztosítsa egymás után a második La Liga-címét...

vasárnap 19:34

A melegedés egyre több jegesmedvét vonz az emberekhez – nem csak a soványakat

Ahogy az Északi-sark egyre gyorsabban melegszik, a jégtakaró korábban olvad el tavasszal, és később képződik újra ősszel...

vasárnap 19:13

Az MI rohadtul nem tudatos, Dawkins

Az utóbbi időben komoly hullámokat keltett Richard Dawkins világhírű biológus kijelentése, miszerint szerinte a mai mesterséges intelligenciák, például Claude vagy ChatGPT, valójában tudatosak...