Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

kedd 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

MA 07:29

Az iOS 26.2 megérkezett: új trükkök és erősebb védelem

Megérkezett az iOS 26.2, amely nemcsak kényelmi fejlesztéseket, hanem fontos biztonsági frissítéseket is tartalmaz...

MA 07:22

A Nitro Deck 2 lehet a Switch-rajongók Szent Grálja?

💎 A CRKD új Nitro Deck 2-je nemcsak a klasszikus Nintendo Switch-csel, hanem a hamarosan érkező Switch 2-vel is kompatibilis – mindezt vadonatúj, ergonomikus kialakítással, több programozható gombbal és kissé borsosabb árral kínálva...

MA 07:15

A fagyöngy alatti csókok nem ártanak a fáknak

🌷 A fagyöngyöt sokáig úgy tartották, hogy kárt tesz a gazdafájában, de friss kutatások szerint a karácsonyi csókhoz kapcsolódó hagyomány miatt senkinek sem kell bűntudatot éreznie...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 12/14

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Fun With Directions HD Lite (iPhone/iPad)Ez az interaktív figura nemcsak ételt kér, de kedvesen meg is hálálja, ha adsz neki...

MA 07:09

A vegyes ültetés megmentheti a gazdákat – és a bolygót

🌱 A modern mezőgazdaságban az elmúlt száz év során a gazdák tipikusan egyfajta füvet vetettek a rétjeikre, majd műtrágyával fokozták a termést...

MA 07:01

Az Orico tenyérnyi NAS-a: kicsi, mégis elképesztően sokoldalú

💾 Az Orico most piacra dobta a PTM nevű dokkolóját, amely új szintre emeli a hordozható tárolást...

MA 06:59

Az NFL Swift-lázban: így hódítja meg Taylor Swift a fociszurkolókat

🏁 Taylor Swift nevét ma már szinte mindenki ismeri, de most újabb, eddig elérhetetlennek hitt rajongói réteget hódít meg: az NFL, vagyis az amerikai futball világát és annak férfi közönségét...

MA 06:50

Az MI-adatközpontok bekebelezik az infrastruktúrát

Az MI-hez kötődő adatközpontok építése sosem látott ütemet diktál, miközben az utak, hidak és más alapvető infrastruktúra fejlesztése háttérbe szorulhat...

MA 06:43

Az Nvidia szárnyalása: hol a plafon az MI-őrületben?

Ebből következően érdemes megérteni, hogy az Nvidia az utóbbi évek egyik leglátványosabb tőzsdei sikersztorija lett...

MA 06:29

A mesterséges intelligencia Amerika rejtett geotermikus kincseire bukkan

Egy Utah-i startup, a Zanskar Geothermal & Minerals áttörést ért el azzal, hogy MI-t használt egy 121 °C-os geotermikus mező felderítésére...

MA 06:22

Az MI lelkiismerete törli a légitársaságokat a digitális világból

✈️ Tipikus eset, amikor a technológiai újítások alapvetően rendezik át egy egész iparág működését: a British Airways vezetője szerint a légitársaságok ma már nemcsak az utasaiknak, hanem a szoftvereknek is el kell tudniuk adni magukat...

MA 06:15

A Pluribus letarolta az Apple TV-t

A Pluribus sorozat minden eddigi nézettségi rekordot megdöntött az Apple TV-n, ezzel a platform történetének legnézettebb műsora lett...

MA 06:08

Az álhír nem emberi kiváltság: a természet is terjeszti

🐛 A közösségi média tele van félrevezető tartalmakkal: képhamisítás, politikusi nyilatkozatok kiforgatása, vagy akár az oltások hatásának tagadása is mindennapos...

MA 06:05

Történelmi események a mai napon (December 14.)

Erős, sorsfordító nap a történelemben: a Grande Armée visszavonulásától a Holdon tett utolsó lépésig, a Daytoni békétől a Sandy Hook-i iskolai tömegmészárlásig...

MA 06:01

A kenguruk ősi szellemlénye Ausztráliában bukkant fel

Egy eddig ismeretlen, őshonos erszényes állatfajt azonosítottak Nyugat-Ausztráliában, amely közeli rokona a kengurunak...

szombat 20:49

A lézerek új korszaka: amikor a zérus módus nem topologikus

Az utóbbi években a nem hermitikus fizika és a topológiai fotonika találkozása forradalmasította a lézerek fejlesztését...

szombat 20:35

Az új szabályok megállíthatják a cápák és ráják mészárlását

🐙 Ebből következően érdemes megérteni, miért emelkednek most a cápák és ráják védelmének esélyei az egész világon...

szombat 20:18

A Nap kapujában: a Parker Solar Probe újabb diadala

🔥 A NASA Parker Solar Probe űrszondája ismét elképesztően közel jutott a Naphoz december 13-án, amikor elérte pályájának legközelebbi pontját, a periheliont...