Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

hétfő 21:00

Az Instagram felrobbant: Kylie Jenner ismét bikiniben pózol

A hétfői rosszkedvre itt a tökéletes ellenszer: Kylie Jenner újabb bikinis szelfivel lepte meg követőit, és elképesztően néz ki...

MA 18:18

Az MI már most az amerikai állások bő tizedét kiválthatja

A Massachusetts Institute of Technology és az Oak Ridge National Laboratory friss kutatása alapjaiban forgathatja fel a mesterséges intelligencia munkaerőpiacra gyakorolt hatásáról alkotott elképzeléseket...

MA 18:02

A Mars ősi jégkorszakának nyomai végre napvilágra kerültek

A Mars felszínének rég nem látott titkait tárták fel a legfrissebb képek: az egykori jégkorszak drámai öröksége most először válik igazán láthatóvá...

MA 17:49

Az MI miatt hatezer HP-alkalmazott kerülhet utcára

Nagy leépítési hullámra készül a HP, miután bejelentették, hogy akár hatezer dolgozót is elküldenek az elkövetkező három évben...

MA 17:34

Az ünnepi lakoma előtti koplalásért csúnyán megbosszul a gyomrod

Az ünnepi időszakban sokan arra esküsznek, hogy érdemes kihagyni akár a reggelit vagy az ebédet is, hogy aztán este korlátlanul élvezhessék a finomságokat...

MA 17:18

Az etióp vulkán 12 ezer év után újra életre kelt

🔥 Észak-Etiópiában, az Afar régiójában fekvő Hayli Gubbi vulkán 12 000 évnyi csend után vasárnap reggel óriási erővel tört ki, hatalmas hamu- és füstfelhőt eregetve a Vörös-tenger irányába...

MA 17:02

Megvan az első közvetlen bizonyíték a sötét anyagra?

Majdnem száz éve feltételezik, hogy egy láthatatlan, rejtélyes anyag, a sötét anyag szövi át a világegyetemet, és galaxishálózatokat formál...

MA 16:50

Az igazság, amit eltitkolnak: a bevándorlók gazdasági haszna

💰 A migrációval kapcsolatos hírek jellemzően fenyegetést vagy veszélyt sugallnak, holott a kutatások alapján a bevándorlás számos előnyt hoz a fogadó országoknak...

MA 16:34

A filléres MI-bűnözés kora: WormGPT 4 és KawaiiGPT

💸 Senki sem várta volna, hogy az MI-alapú támadások ilyen gyorsan elérhetővé válnak szinte bárkinek, de most, akinek van 80 000 forintja, életre szóló hozzáférést szerezhet egy bűnözésre fejlesztett nagy nyelvi modellhez, a WormGPT 4-hez...

MA 16:01

Az Alibaba Cloud nem győzi az MI-keresletet

🔥 Az Alibaba Cloud sosem látott MI-őrületet él át Kínában: hiába bővíti folyamatosan a szerverparkját, egyszerűen nem bír lépést tartani a növekvő kereslettel...

MA 15:50

Az izomnövelő olaj évekkel később halálos árat követelt

💉 Megvizsgálták, hogy egy 60 éves varsói férfinél mi vezetett drámai izomtorzuláshoz és életveszélyes, megemelkedett vérkalciumszinthez...

MA 15:33

Az OLED-panelek mostantól kapcsolhatók: irányított fény gombnyomásra

Az Oxfordi Egyetem kutatóinak sikerült először olyan OLED (organikus fénykibocsátó dióda) technológiát fejleszteniük, amely elektromos jellel képes váltani a kibocsátott fény „forgásirányát”, vagyis bal- vagy jobbkezes körpolarizált fényt hoz létre – anélkül, hogy a fényt kibocsátó molekulákat ki kellene cserélni...

MA 15:18

Az űrállomás hősei: kulisszatitkok a kínai űrmentésről

Érdekes felvetés, hogy a világűrben dolgozó űrhajósok élete mennyire függ a biztonsági tartalékmegoldásoktól...

MA 15:02

Az Nvidia nekiment a Google MI-gyorsítóinak a Meta miatt

🛡 Fontos kérdés, hogy komoly fenyegetést jelenthet-e a Google saját fejlesztésű MI-gyorsítója, a TPU az Nvidia által uralt piacra – főleg, hogy a Meta állítólag fontolgatja a váltást...

MA 14:50

Az mRNS-terápia áttörést hoz az antibiotikum-rezisztencia elleni harcban

Fontos megérteni, hogy az antibiotikum-rezisztens fertőzések világszerte egyre nagyobb fenyegetést jelentenek...

MA 14:34

Az ember legjobb barátja mégiscsak farkas maradt?

🐶 A modern kutyafajták többsége ma is aprócska mennyiségű farkasgéneket hordoz, méghozzá nem is az ősidőkből, hanem viszonylag friss, néhány ezer éves keveredésekből...

MA 14:02

A Poco új telefonja már mélynyomóval támad

🔊 A Poco új F8 szériája igazi különlegességet kínál: az F8 Ultra modell már mélynyomóval is felszerelt, így a mobilhangzás új szintjét hozza el...

MA 13:50

Az Északi-tenger szén-dioxid-temetője: áttörés a klímavédelemben?

Erre utal többek között az, hogy az elhagyott Nini olajmező a zord Északi-tengeren most új szerepet kap: Európa első tengeri szén-dioxid-tárolójává válik...

MA 13:33

A Garmin új csodája átírhatja a viselhető kütyük szabályait

🚀 A Garmin egyre nagyobb izgalmat kelt a viselhető eszközök piacán: titokzatosan beharangozott egy új kütyüt, amelyet a viselhetők jövőjének nevez...