Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 20:20

A monstrum Doogee V Max LR: telefon vagy szerszámosláda?

A Doogee V Max LR egészen új szintre emeli a strapatelefon fogalmát: nemcsak elképesztően masszív, de igazi energiabajnok is a 20500 mAh-s akkumulátorával...

MA 20:02

Az elveszett indián falvak előkerültek – tényleg igaza volt John Smithnek?

🌍 Emellett a Rappahannock folyó mentén, Virginiában végzett ásatások során végre sikerült azonosítani azokat az ősi indián falvakat, amelyeket a Jamestownból ismert John Smith több mint 400 éve említett...

MA 19:49

A Simogo új csomagja visszarepít az iPhone-játékok aranykorába

🎮 A mobiljátékok világában ma már ritkaságszámba mennek az igazán kreatív indie alkotások, de volt idő, amikor az App Store-nak köszönhetően a kis fejlesztőcsapatok is hatalmas közönséghez tudták eljuttatni ötleteiket...

MA 19:34

Az elveszett szavak nyomában: miért fordíthatatlan néha a nyelv?

Több nyelvet beszélve feltűnhet, hogy bizonyos szavakat egyszerűen képtelenség lefordítani. Egy japán tervező vágyódik a mono no aware iránt, amely egyfajta letisztult, időtlen szépség – angolul, sőt magyarul sincs rá igazán megfelelő szó...

MA 19:17

Az évszázad játéka visszatért – kezdődik a láz!

Az év vége felé közeledve senki sem unatkozik, hiszen a legendás játék, amely hosszú évek óta sokak toplistáján szerepel, most újra hódít...

MA 19:02

Az Amazon nagy fúziója az MI-szuperszerverekkel

Tipikus eset, amikor a technológiai verseny nem az egyediség felé visz, hanem a legjobb, működő mintát másolják a nagyok...

MA 18:51

Az olcsó boltok ára a szegények bőrére megy

Az Egyesült Államokban rengeteg család támaszkodik olyan bolthálózatokra, mint a Family Dollar vagy a Dollar General, hiszen ezek a boltok ígérik a legalacsonyabb árakat alapvető háztartási cikkekből...

MA 18:33

Az okosszemüveg, amely rémálommá vált: 13 év Google Glass után

Amikor a Google Glass 13 évvel ezelőtt megjelent, az egész világ álmodozni kezdett arról, milyen lesz, ha számítógép költözik az arcunkra...

MA 18:18

Az ABCC4 titkos hálózata: új trükk a sejtszabályozásban

Amikor egy sejt kívülről üzenetet kap, egy ciklikus AMP (cAMP) nevű molekulával közvetíti ezt a jelzést...

MA 17:50

Az újszülöttek B-hepatitisz oltása kikerülhet a kötelezőkből

Az Egyesült Államok járványügyi központjának (CDC) oltási tanácsadó bizottsága az eddigi gyakorlattól eltérően már nem javasolja egységesen, hogy minden újszülött kapjon hepatitis B elleni oltást születése után...

MA 16:49

Vége lehet Hollywood aranykorának az új Netflix–Warner Bros.-óriással?

🎥 Nehéz elhinni, de a Netflix és a Warner Bros. közötti friss felvásárlási megállapodás máris felforgatta a teljes hollywoodi piacot...

MA 16:34

A házi csodachip: több mint ezerszeres ugrás a garázslaborban

Fontos kérdés, hogy meddig juthat el egy lelkes egyetemista, ha házilag, garázsban barkácsolja össze saját integrált áramköreit...

MA 16:18

A pénzed turbója: egyszerű lépések a gyorsabb célokért

Rendszeres pénzügyi stressz: nem kell mindent túlbonyolítani A pénzügyek kezelése rengeteg ember számára jár állandó lelkiismeret-furdalással: folyamatosan azt sugallják, hogy a megtakarításon, a befektetésen és persze az adók optimalizálásán is dolgozni kell...

MA 16:04

Az Xgimi Horizon 20 Max: Luxusmozi és gamer élmény egy projektorban

Ebből következően érdemes megérteni, hogy a hordozható projektorok piacán is megjelentek a valódi prémium modellek...

MA 15:50

Az oroszországi aranyáldozatok rejtélye: 2400 éves kincs került elő

🏁 A dél-uráli Vysokaya Mogila sírmezőn egyedülálló, 2 400 éves áldozati komplexumot tártak fel orosz régészek, amely új fényt vet a nomádok temetkezési rítusaira...

MA 15:35

Az ingatlanpiac, amely még Warren Buffettet is szabályszegésre csábította

Érdekes felvetés, hogy még a legendás Warren Buffett is hajlandó volt felrúgni saját, kőbe vésett szabályait a mostani ingatlanpiaci körforgásban...

MA 15:04

Az óriás Doogee V Max Play: túlélőmobil vagy hordozható tégla?

A Doogee V Max Play nem aprózta el a strapatelefon fogalmát: ez a készülék méretével, tömegével és funkciókínálatával messze túlmutat a rutinos túrázók és kalandorok elvárásain...

MA 14:17

Az afrikai sertéspestis miatt öt spanyol labor került gyanúba

🐷 Spanyolországban pánikot okozott az afrikai sertéspestis felbukkanása, ezért a hatóságok öt laboratóriumban is vizsgálatot folytatnak, hogy kiderítsék, honnan indult ki a fertőzés...

MA 13:49

Az elviselhetetlen záptojásszag lehet a körömgomba végső ellenszere

Különösen igaz ez akkor, ha valaki évek óta küzd makacs körömgombával, amely semmilyen kezelésre nem reagál igazán...