Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 16:17

A Proton Sheets megérkezett: végre titkosított táblázatok mindenkinek

🔒 A Proton legújabb fejlesztése, a Proton Sheets, fontos lépés a vállalat termelékenységi csomagjában...

MA 16:01

Az anacondák titka: hogyan maradtak óriások 12 millió évig

Egy lényeges szempont, hogy az anacondák már a megjelenésük után rekordméreteket értek el Dél-Amerikában, és elképesztő stabilitással tartották is ezt a méretet több mint 12 millió éven át...

MA 15:49

Az év őrülete: mindenki a Geminit kereste

2025-ben világszerte a Gemini, vagyis a Google MI-chatbotja vezette a keresési trendeket...

MA 15:34

Az ősember nem habzsolt, okosan vadászott

Több tízezer éve a Levante térségében élő, az ősember rokonai, például a neandervölgyiek és a Homo erectus, nem tömeges hajtóvadászatokkal, hanem megfontolt, szelektív vadászattal szerezték be a táplálékukat...

MA 15:18

A K’gari legendás tavai az idő szorításában

K’gari, a világ legnagyobb homokszigete Queensland délkeleti partjainál, gyönyörű tavairól híres...

MA 15:01

A haj nem nő: láthatatlan erő húzza felfelé

🧉 Az emberi haj növekedéséről eddig azt hittük, hogy a gyökérnél létrejövő sejtosztódás tolja ki a hajszálat a bőrből, ám friss kutatás szerint valójában húzóerő mozgatja felfelé a hajszálat...

MA 14:49

Az új Batmanben szerepet kaphat Scarlett Johansson

🎬 Scarlett Johansson végre közel kerülhet ahhoz, hogy átugorjon a rivális képregényfilm-univerzumok közé: a hírek szerint hamarosan leszerződik az A Batman 2...

MA 14:35

A nagy vizsga előtt áll a fentanil elleni vakcina

Egy piszok erős, szinte láthatatlan gyilkos, amely már néhány homokszemnyi mennyiségben is halálos: a fentanil nevű szintetikus opioid kiemelkedő veszélyt jelent, mert színtelen, szagtalan és könnyű más szerek közé keverni, anélkül, hogy a fogyasztó tudna róla...

MA 14:18

Az élő, nyers békaevés ára: ritka tüdőfertőzés Sanghajban

🐸 Egy 32 éves sanghaji nő hónapokon át tartó köhögés, időnként véres köpet, valamint a korábban heteken át fennálló láz miatt fordult orvoshoz...

MA 14:01

Az influenzavírus tényleg besétál a sejtjeinkbe – és lefilmeztük!

📺 Télen ismét előkerül a jól ismert hármas: láz, sajgó végtagok és orrfolyás...

MA 13:49

Az Antigravity 360 fokos drónja berobban az amerikai piacra

🚀 Az Antigravity végre megérkezett az Egyesült Államokba, és elsőként egy igazán különleges drónnal, az Antigravity A1-gyel mutatkozik be...

MA 13:36

Az online frontvonal: belépünk a DDoS-támadások új korszakába

🛡 2025 harmadik negyedévét a minden eddiginél erősebb Aisuru botnet támadásai uralták, amelyek egyszerre döntöttek rekordokat és forgatták fel az online világ védelmét...

MA 13:18

Az MRI forradalma: fullerénekkel új korszak kezdődhet

A mágneses rezonancia képalkotás (MRI) világszerte nélkülözhetetlen eszköz az orvostudományban. Mégis a technológia érzékenysége tovább növelhető, különösen a dinamikus nukleáris polarizáció (DNP) nevű módszerrel...

MA 13:04

Az Ethereum zuhanni kezdett: miért olvad a hálózat értéke?

Az elmúlt öt hónap során az Ethereum árfolyama 45 százalékkal esett vissza, 1,4 milliárd dollár (kb...

MA 12:17

Az agy csak harminc után érik be igazán

Úgy tűnik, az agyunk jóval tovább kamasz marad, mint ahogy gondolnánk...

MA 12:03

Az év végi szenzáció: a Spotify Wrapped zsenialitása

Idén is megérkezett a Spotify Wrapped, a zenestreaming-szolgáltató éves kampánya, amely évről évre minden várakozást felülmúl...

MA 11:50

A gáztűzhelyek láthatatlan mérge otthon is támad

Ez a jelenség jól illusztrálható azzal, hogy miközben a kültéri légszennyezés ellen sokan igyekeznek védekezni, a lakásokban is komoly egészségügyi kockázatot jelenthetnek a mindennapi eszközök...

MA 11:33

A tudatosan beépített hibák szupererővel ruházzák fel a grafént

A kutatók áttörő módszert találtak a grafén előállítására: szándékosan olyan szerkezeti hibákat visznek be, amelyek jelentősen javítják annak tulajdonságait...

MA 11:17

Az új BMW iX3: az elektromos SUV, ami mindent visz

🚗 A BMW új elektromos crossover SUV-ja hamarosan felrázza a piacot. Az elmúlt két évben a gyártó folyamatosan adagolta a részleteket a Neue Klasse (Új Osztály) névre keresztelt új generációs elektromos platformjáról: mérnökei órákon át magyarázták a vadonatúj, továbbfejlesztett aktív biztonsági rendszert, prototípusokat lepleztek le, és egyre nőtt a várakozás...