Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

csütörtök 20:50

Az idén csak gurul a PlayStation-szekér – és ez így rendben

🎮 2025 nem hozott nagy meglepetéseket a konzolpiac egyik óriásánál. Miközben a rivális Xbox háza táján a botrányokból sem volt hiány, a PlayStation csendes, magabiztos évvel folytatta útját...

csütörtök 20:33

A népszerű fájdalomcsillapító veszélyesebb lehet, mint hinnénk

Fontos kérdés, mennyire biztonságos a népszerű fájdalomcsillapító, a tramadol a krónikus fájdalomban szenvedők számára...

csütörtök 20:17

Az önvezető taxik ajtaját végül mégis emberek csukják

A Waymo önvezető robotaxijai gond nélkül szelik át a városi utcákat, de gyakran megbénulnak, ha az utasok nyitva felejtik az ajtót...

csütörtök 20:02

Az olcsó PC-memória később drágán visszaüthet

Az utóbbi hónapokban jelentősen megdrágultak a RAM-modulok, emiatt sok PC-gyártó próbálja megfékezni a kész PC-k árait, gyakran régebbi technológiát alkalmazva...

csütörtök 19:50

Az új Nintendo Switch 2-re váltás: villámgyors, gondtalan játékátvitel

A Nintendo Switch 2-re váltás izgalmas lépés: nagyobb kijelző, gyorsabb hardver, új funkciók várnak rád...

csütörtök 19:33

A mesterséges intelligencia átírja a játékszabályokat: 2025 legkapósabb állásai

2025-ben az MI minden várakozást felülmúlt: a cégek több mint 199 milliárd forintot fektettek be a technológiába, ami 75%-os növekedést jelent 2024-hez képest...

csütörtök 19:17

Az egyre forróbb óceánok szuperhurrikánokat szülnek – kell új kategória?

🌀 Egy lényeges szempont, hogy az óceánok melegedése új szintre emelte a hurrikánok erejét, és már a jelenlegi 5-ös kategória fölötti, rekorder szélviharokat is látni...

csütörtök 19:01

A Gmail-címedet végre átírhatod – mutatjuk, hogyan

🖋 A Google lehetővé teszi, hogy végre megváltoztasd a @gmail.com végű e-mail-címedet, vagy új aliasokat (álnévre szóló e-mail-címet) hozhatsz létre – derült ki egy nemrég közzétett támogatási dokumentumból...

csütörtök 18:49

Az Nvidia rekordüzletben, 20 milliárd dollárért bekebelezi a Groq technológiáját

Az Nvidia rekordösszegű, 7200 milliárd forintért (20 milliárd USD) vásárolja meg a MI-gyorsító chipeket fejlesztő Groq technológiáját...

csütörtök 18:35

A turkálóban talált ősi leletek: botrány vagy kincs?

Egy meglehetősen furcsa e-mail futott be 2024 tavaszán a Simon Fraser Egyetem régészeti tanszékének egyik oktatójához...

csütörtök 18:19

A nagy lecke: Buffett legdurvább melléfogása a Berkshire-nél

Egy lényeges szempont, hogy Warren Buffett számára a Berkshire Hathaway felvásárlása nemcsak pénzügyi történet, hanem élete egyik legnagyobb tanulsága is...

csütörtök 17:01

Az Nvidia bekebelezi a feltörekvő Groq-ot

🦁 Az Nvidia exkluzív licencszerződést kötött a Groq nevű feltörekvő MI-chipgyártóval, és ráadásul magához csábította a Groq alapítóját, Jonathan Rosst, elnökét, Sunny Madrát, valamint több kulcsembert is...

csütörtök 15:50

Az új Galaxy Watch rejtett képességei: három funkció, amit kár kihagyni

A legtöbben egy Samsung Galaxy Watch-ot főleg fitneszkövetésre, értesítésekre és alapvető kényelmi funkciókra vásárolnak...

csütörtök 15:34

A karácsonyi Powerballon milliárdok a tét – mennyit viszel haza?

🎁 Karácsonykor szinte mesébe illő jackpottal csábít a Powerball: a karácsony esti sorsolás főnyereménye elérheti a 660 milliárd forintot (kb...

csütörtök 15:18

A kvantumforradalom kezdete: hibajavítás, ami mindent átír

⚡ Megvizsgálandó, hogy mennyire várható a kvantumszámítástechnika kulcsát jelentő, stabilabb qubitek felé való áttérés a következő években, érdemes visszatekinteni a kvantumhibajavítás elmúlt évtizedének látványos fejlődésére...

csütörtök 15:02

Az új Ra & Write felforgatja a klasszikus Ra örökségét

Érdemes megvizsgálni, van-e élet az aukciós legendán túl: a Ra And Write Reiner Knizia közismert Ra társasjátéka alapján készült, de most egy könnyed, flip-and-write változatként jelent meg...

csütörtök 14:52

Az olcsó fejhallgatók trónkövetelői: 9 verhetetlen ajánlat 36 ezer alatt

A minőségi fejhallgató ma már nemcsak a vastagabb pénztárcájúak kiváltsága. Bár a luxusmodellek ára akár 200 ezer forint fölé is szökhet, a tesztjeinket kiálló, 36 ezer forint (kb...

csütörtök 14:35

Az év lencseforradalma: öt újdonság, amit muszáj kipróbálni

📷 A 2025-ös év nemcsak a kamerák számára hozott izgalmas újdonságokat, hanem a lencsék területén is valódi áttörés történt...

csütörtök 12:49

A bolíviai hegyoldal, ahol 16 ezer dinoszaurusz járt

Több mint 16 000 dinoszaurusz lábnyomot tártak fel Bolíviában, a Carreras Pampa vidékén, a Torotoro Nemzeti Parkban...