Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 20:52

Az algoritmus megszelídítve: te döntöd el, mit látsz online

🔎 A mai digitális világban szinte mindannyiunk életét behálózzák a tartalomajánló algoritmusok...

MA 20:33

A mesterséges intelligencia miatt felfüggesztik az online könyvelővizsgákat Angliában

Az ACCA, a világ legnagyobb könyvelői szervezete 260 000 taggal, márciusban leállítja az online vizsgákat, mert az MI-vel támogatott csalás egyre komolyabb probléma...

MA 20:19

Az MI nem hoz munkahelyi apokalipszist: inkább új állásokat teremt

Miközben egyre többen tartanak attól, hogy az MI tömeges munkanélküliséget okoz, a valóságban inkább új munkakörök jelennek meg...

MA 20:03

Az első fentanil-vakcina: jöhet az életmentő áttörés

💉 Egy új vakcina érkezik, amely gyökeresen megváltoztathatja az opioidválság kezelését: 2026-ban kezdődnek az első humán kísérletek a világ első, túladagolás és függőség ellen is védő fentanil-vakcinájával...

MA 19:52

A nagy OWASP MI‑ügynök‑kalauz: támadások és védekezés

Az elmúlt év meghatározó időszakot jelentett a mesterséges intelligencia (MI) fejlődésében...

MA 19:34

Az agy tanulásának titkai: biomimetikus modell leleplezi rejtett neuronjait

Egy lényeges szempont, hogy az agy működésének megértése már nem csak az állatkísérletek adataira korlátozódik...

MA 19:19

Az űrbéli adatközpont: megoldás az MI energiafalására, vagy puszta őrület?

Felmerül a kérdés, hogy meddig lehet még a Földön bővíteni az adatközpontokat, mielőtt valóban elérnénk bolygónk fizikai korlátait...

MA 19:02

Az egészségügy hét sorsdöntő kérdése 2026-ban

2025 egy viharos év volt az egészségügyben: a tudományos intézmények meggyengültek, a közegészségügyet pedig egyre több támadás érte...

MA 18:50

Elhunyt Lou Gerstner, az IBM megmentője, 83 éves volt

🕐 Az egykori IBM-vezérigazgató, Lou Gerstner szombaton, 83 éves korában halt meg...

MA 18:36

Az MI-forradalom küszöbén: tényleg 2026 hozza a nagy áttörést?

Érdemes megvizsgálni, hogy a ChatGPT három évvel ezelőtti debütálása óta sorra bukkannak fel a vállalati MI-megoldásokat fejlesztő cégek, a befektetők pedig milliárdokat öntenek az iparágba...

MA 18:19

A technológia olimpiája: mit hoz a CES 2026?

Minden év januárjában a világ figyelme Las Vegasra szegeződik, hiszen itt rendezik a technológiai iparág legrangosabb eseményét, a CES-t...

MA 17:50

Az erdőtüzek a gondoltnál sokkal durvábban szennyeznek

Az elmúlt évek tapasztalatai alapján az erdő- és bozóttüzek jelentősen hozzájárulnak a levegőszennyezéshez, azonban egy friss kutatás szerint a helyzet még súlyosabb lehet, mint eddig gondoltuk...

MA 17:34

A kozmosz rejtett fényforrása: új nyomok a gamma-rejtélyben

Az univerzum legnagyobb energiaszintű sugárzását kibocsátó források továbbra is rejtélyt jelentenek a csillagászok számára...

MA 17:17

Az Nvidia 5 milliárd dollárral mentőövet dob az Intelnek

💰 Az Nvidia szeptemberben bejelentett megállapodása alapján 5 milliárd dollárért (kb. 1 730 milliárd forintért) vásárolt részesedést az Intelben, ezzel komoly pénzügyi hátteret biztosítva a processzorgyártónak...

MA 17:02

Az adatlopás csúfos véget ért: MacBook a folyóban, 1,2 milliárdos kár

🚫 A dél-koreai Coupang online áruház korábbi dolgozója beismerte, hogy jogosulatlanul hozzáfért 33 millió ügyfél adatához, ugyanakkor a vállalat szerint a kár mértéke kisebb, mint amitől eredetileg tartottak...

MA 16:33

Az MI új titkos fegyvere: megérkezett a Copilot Smart Plus GPT‑5.2-vel

🚀 A Microsoft ingyenes frissítésként bevezeti a GPT-5.2 modelljét a Copilot szolgáltatásba, amely immár elérhető weben, Windowson és mobilon is...

MA 16:17

Az ezüstláz Kínában: durván zuhannak az árak

Az ezüstár hétfőn meredeken visszaesett, miután történelmi rekordot döntve átlépte a 80 dolláros, azaz közel 28 900 forintos unciánkénti határt...

MA 16:02

A qubitek megmentője: mikrohullámok a kvantumhibák ellen

A kvantumszámítógépek a jövő legígéretesebb számítástechnikai eszközei, de egy komoly hibával küzdenek: a qubitek (kvantumbitek) időnként „elszivárognak” a saját energiaszintjükből, így kiesnek a számításból, sőt a környező qubiteket is megzavarják...

MA 15:49

Súlyos betörés miatt leállt a Rainbow Six Siege

Egy jelentős biztonsági rés miatt az Ubisoftnak le kellett állítania a Rainbow Six Siege szervereit, miután ismeretlenek tömegesen jutottak hozzá a játékhoz kapcsolódó adatokhoz, ritka skinekhez és zárolt fiókokhoz...