Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

kedd 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

MA 17:17

Az ukrán hekkernő az orosz kibertámadások titkos segítője

🕵 Az amerikai hatóságok vádat emeltek egy 33 éves ukrán nő, Victoria Eduardovna Dubranova (ismertebb nevén Vika, Tory vagy SovaSonya) ellen, mert orosz hátterű hekkercsoportokat segített kibertámadásokban világszerte, többek között amerikai vízrendszerek, választási rendszerek és atomerőművek ellen...

MA 17:03

Jön az ausztrál tinédzser közösségimédia-tilalom: új korszak indul?

Érdemes megvizsgálni, hogy miért kelt világszerte ilyen nagy visszhangot az ausztrál döntés, amely elsőként tiltotta be országos szinten a 16 év alattiak közösségi médiához való hozzáférését...

MA 16:49

Az adelaide-i zöldterületek fenntarthatósága veszélyben?

Adelaide városának zöldterületei kulcsszerepet játszanak a klímaszabályozásban, a biodiverzitás megőrzésében és az élhetőség javításában...

MA 16:33

A perzselő hőség hátráltatja a kisgyermekkori fejlődést

A szokatlanul magas hőmérséklet miatt a kisgyerekek egyre nehezebben érik el a korai tanulási mérföldköveket, leginkább az olvasás és a matematika terén...

MA 16:17

A Mars-utazás küszöbén állunk – tényleg ennyire közel?

Az Egyesült Államok Tudományos, Mérnöki és Orvostudományi Akadémiái egy átfogó jelentésben részletesen bemutatják, miért lenne sorsfordító, ha végre űrhajósokat küldenénk a Marsra...

MA 16:03

Az Öböl tengeri tehenéi 20 millió éve ökológiai mérnökök

Az Arab-öböl sekély vizei ma is otthont adnak a manátuszokhoz hasonló tengeri emlősöknek, az úgynevezett dugongoknak, amelyek aktív szereplői a tengerifű-mezők életének...

MA 15:49

A pornótörvény utáni élet: VPN-láz és nézettségi mélyrepülés

Az idén bevezetett brit kötelező korhatár-ellenőrzés alaposan átalakította az online pornópiacot...

MA 15:34

A veszettség az átültetett veséből ütött rajta: végzetes tanulságok

Tipikus eset, amikor a baljós jeleket mind a beteg, mind az orvosok túl későn veszik észre...

MA 15:17

Az Amazon mostantól magától intézi a bevásárlást helyetted

🪵 Az Amazon új Shopping Essentials funkciója elhozta a jövőt: az Alexa+ mostantól magától rendeli meg azokat a termékeket, amelyeket a felhasználó előre kiválasztott, amint áruk a megadott szint alá csökken...

MA 15:02

A Minecraft legújabb frissítése: tombol a káosz, végre itt a lándzsa

🚩 Felmerül a kérdés, mire vágyunk leginkább egy hosszú év után a Minecraftban...

MA 14:49

Az FHA-hitelek refinanszírozása kilőtt – most mindenki spórolna

💰 A 30 éves, fix kamatozású lakáshitelek átlagos kamata 6,33%-ra nőtt azoknál a hiteleknél, amelyeknél a hitelösszeg legfeljebb 294 millió forint (806 500 USD)...

MA 14:33

Az ausztrál gyerekek búcsút inthetnek a közösségi médiának

Szerda reggel több mint egymillió ausztrál gyerek tapasztalta, hogy törölték vagy megszüntették közösségi médiafiókjukat...

MA 14:18

Betiltják a közösségi médiát a tiniknek Ausztráliában – működik?

🚫 Felmerül a kérdés, mennyit ér egy olyan tiltás, amiről mindenki tudja, hogy nem lesz tökéletes...

MA 13:49

A Hinge alapítója távozik: új vezetés, új korszak

🚀 Justin McLeod, a Hinge társkereső alkalmazás alapítója és vezérigazgatója lemondott pozíciójáról, a stafétát pedig Jackie Jantosnak, a Hinge eddigi elnökének és marketingigazgatójának adja át...

MA 13:34

Az olcsó vitaminkoktél lehet az agyrák ellenszere?

A daganatterápia hagyományosan a ráksejtek elpusztítására épül. Ugyanakkor egy új, indiai kutatás a glioblasztóma kezelésében egészen más irányba mutat: a betegség gyógyulását támogatni, nem pedig a tumort mindenáron megtámadni érdemes...

MA 13:02

Az északi Japánt újra megaföldrengés réme fenyegeti

Ez a jelenség jól illusztrálható azzal, hogy a kedden kiadott új veszélyjelzés szerint a japán meteorológiai hatóságok erősebb földrengésekre számítanak az ország északi részén, miután egy 7,5-ös erősségű földrengés rázta meg Aomori partjait...

MA 12:50

A tehetségekért dúl a verseny: Kanada milliárdokkal csalogat

Kanada új, 660 milliárd forint (1,7 milliárd kanadai dollár) értékű programot hirdetett meg, amelynek célja a világ vezető kutatóinak toborzása...

MA 12:17

Az emberi agy külön csatornán dolgozza fel a csimpánzok hangját

🐒 Az emberi agy nemcsak az embertársak hangját ismeri fel, hanem különösen reagál a csimpánzok hangjaira is...