Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 09:02

Az Intel Xeon 6 új korszakot nyit a peremhálózati MI-ben

⚡ Az OCP 2025 konferencián meglepően kevés szó esett arról a bemutatóról, ahol az Intel élőben demonstrálta, mire képes a Xeon 6 SoC – méghozzá a Dell PowerEdge XR8720t szerverben...

MA 08:43

A jóindulatú hekkerek végre védelmet kapnak Portugáliában

Portugália jelentősen átalakította a kibertörvényét, hogy biztonságos jogi hátteret teremtsen a jóhiszemű biztonsági kutatóknak...

MA 08:37

Az ember nem a modern világra termett

A mai, városi életmód súlyos biológiai kihívások elé állítja az embert, amelyekre evolúciónk során nem készülhettünk fel...

MA 08:30

Azok a kézmozdulatok, amelyektől azonnal magabiztosabbnak látszol

💪 Sokan csak arra készülnek fel, mit fognak mondani egy prezentáció, pitch vagy megbeszélés során, de azon kevesen gondolkodnak, hogyan mozgatják közben a kezüket...

MA 08:22

Az OpenAI cáfolja: nincs reklám a ChatGPT Plusban

A napokban több ChatGPT Plus-felhasználó észrevette, hogy egy egyszerű informatikai kérdésre adott válaszában az MI váratlanul vásárlási ajánlást is megjelenített: például azt javasolta, hogy a Targetben érdemes élelmiszert venni...

MA 08:15

Az OpenAI tagadja: nem lesznek hirdetések a ChatGPT-ben

Az elmúlt napokban többen találtak olyan képernyőfotókat az interneten, amelyek szerint hirdetések jelentek meg a ChatGPT-ben...

MA 08:09

Az ujjbegyszúrásnak hamarosan vége: jön a szúrásmentes vércukormérés

Fontos kérdés, hogy mikor szabadulhatnak meg a diabétesszel élők a mindennapi ujjbegyszúrástól...

MA 08:02

Az Amazon 2026-ban áttörhet – Most jött el a beszállás ideje?

Az Amazon neve mára egyet jelent az online kiskereskedelemmel. A vállalat 2024-ben 790 milliárd dollár (hozzávetőleg 290 ezermilliárd forint) értékű árut forgalmazott digitális csatornáin keresztül...

MA 07:52

Az értekezletek pokollá teszik a munkahetet – tényleg így van?

Ilyen eset például az, amikor a menedzserek naptárát szinte teljesen elborítják az értekezletek...

MA 07:43

A Gyűrűk Ura visszatér: újra moziban a teljes trilógia

Közel 25 évvel az első film premierje után újra a mozikba visszaköltözik Peter Jackson legendás A Gyűrűk Ura (The Lord of the Rings) trilógiája...

MA 07:37

Az erjesztett ételek sötét oldala: életveszély a tányéron

💀 Érdemes megvizsgálni, hogy az utóbbi években egyre többen lelkesednek az erjesztett ételekért – legyen szó joghurtról, kimchiről, misóról vagy savanyú káposztáról...

MA 07:29

Az egyetemeken tombol az MI-láz: diákok ezrei váltanak szakot

Egyre több amerikai egyetemista fordul a mesterséges intelligencia felé: az MI lett az MIT-en a második legnépszerűbb szak, rögtön a számítástechnika mögött...

MA 07:23

Az igazság a kutya-DNS-tesztekről: tényleg felfedik, miért ilyen a kutyád?

🐶 Érdekes felvetés, hogy mennyit tudnak elárulni a népszerű DNS-tesztek a kutyák személyiségéről és viselkedéséről...

MA 07:15

Az orosz Porschék sorra lebénultak egy titokzatos műholdhiba miatt

Képzeld el, hogy be akarsz szállni az autódba, megnyomod az indítógombot, és semmi nem történik...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 12/8

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Duck Life 6: Space (iPhone/iPad)A Duck Life: Galactic a népszerű sorozat eddigi legnagyobb és legizgalmasabb epizódja, amelyben békés kacsa bajnokból galaktikus felfedezővé válhatsz...

MA 07:08

A nagy indiai visszatérés: a Coinbase ismét fogad felhasználókat

Több mint kétéves szünet után a Coinbase kriptotőzsde ismét lehetővé tette az alkalmazásán keresztüli regisztrációt Indiában...

MA 07:01

Az OpenAI reklámszagú üzenetei kivertek minden biztosítékot

💣 Az OpenAI leállította a ChatGPT alkalmazásban megjelenő, hirdetésszerű javaslatokat, miután fizetős előfizetők panaszkodtak a reklámhoz hasonló felugró üzenetek miatt...

MA 06:57

Az új diabéteszpirula zsírt éget, izmot kímél

Egy forradalmi gyógyszer segíthet leküzdeni a 2-es típusú cukorbetegséget és az elhízást anélkül, hogy károsítaná az izomtömeget vagy csökkentené az étvágyat...

MA 06:43

Az ókori Egyiptom történelmét átírhatja egy titokzatos vulkánkitörés

🌋 Új radiokarbon-vizsgálatok teljesen átrajzolták az ókori Egyiptom egyik legizgalmasabb korszakának időrendjét...