Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

kedd 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

szerda 20:49

A Mars rejtélyes hatása: tényleg alakítja a Föld éghajlatát?

Évmilliók óta váltakoznak a jégkorszakok és melegebb időszakok a Földön, amit bolygónk pályájának és tengelyferdeségének finom változásai irányítanak...

szerda 20:33

A King Gizzard kivonul, MI-klónok lepik el a Spotify-t

🎧 Miután az ausztrál King Gizzard & the Lizard Wizard hangos tiltakozás közepette elhagyta a Spotify-t, a rajongók megdöbbenve tapasztalták, hogy a platform máris MI által generált klónokat kínál helyettük...

szerda 20:19

Az MI-chatbotok csődöt mondanak az öngyilkossági segélyvonalakon

Ez a jelenség jól illusztrálható azzal, hogy egyre többen fordulnak MI-hez lelki problémáikkal, de a legnépszerűbb chatbotok váratlanul rosszul vizsgáztak abban, hogyan reagálnak az önsértési vagy öngyilkossági gondolatokat tartalmazó kérésekre...

szerda 20:02

A lítium trónkövetelője? Berobbanhat a nátrium‑ion akkumulátor

⚡ Tipikus eset, amikor a tudósok egy váratlan áttöréssel rukkolnak elő, amely akár felforgathatja az akkumulátorok piacát...

szerda 19:50

Az eddig mért leghosszabb gammakitörés rejtélye felforgatta az asztrofizikát

🚀 Érdemes megérteni, hogy a gammakitörések (GRB) a világegyetem legnagyobb energiájú robbanásai, mégis megfejthetetlennek tűnnek...

szerda 19:34

A Bluebird-hadművelet Musk bakiját meglovagolva indítaná újra a Twittert

Tipikus eset, amikor egy kihagyott ziccer visszaüthet: egy amerikai startup úgy véli, Elon Musk végzetes hibát vétett, amikor a legendás Twittert X-re nevezte át, és ezzel végleg eltüntette a logót és a márkanevet a térképről...

szerda 19:17

Az új Spiderman adathalász-szolgáltatás Európa bankjait veszi célba

🕵 Egy új, Spiderman nevű adathalász eszköz jelent meg, amely valósághű másolatokat készít több európai bank és kriptopénztárca oldalairól...

szerda 19:01

Az Nvidia már a tartózkodási helyedet is követné: jön a nyomkövető MI‑chip

Az Nvidia új, helymeghatározásra alkalmas technológiát fejlesztett, amely képes megmondani, pontosan melyik országban működnek az MI-chipjei...

szerda 18:49

Az MI-képzés káosza: mindenki mást okol

😕 A munkahelyi MI-képzés nélkül ma már nehéz lenne lépést tartani: az alkalmazottaknak elengedhetetlen megtanulni, hogyan használják a mesterséges intelligenciát anélkül, hogy veszélyben éreznék az állásukat vagy a karrierjüket...

szerda 18:33

A manhattani dugódíj máris kitisztította a levegőt

Januárban indult New Yorkban a dugódíjrendszer, amelyben az autósok csúcsidőben 3500 Ft-ot (kb...

szerda 18:18

A gyenge kód leállítja a gyártást – milliárdos bukó a vége

💥 Meg kell vizsgálni, hogy a gyártóvállalatok miért nem engedhetik meg maguknak a gyenge szoftverfejlesztést, és miért vált kulcskérdéssé, hogy már a fejlesztés során beépüljön a biztonság, ne pedig utólag próbálják meg védeni az elkészült alkalmazásokat...

szerda 18:02

Az ultravékony nanomembrán átírhatja az orvosi implantátumok játékszabályait

Egy dél-koreai kutatócsoport új, ultravékony és rendkívül hajlékony bioelektronikai nanomembránt fejlesztett ki, amely képes szinte észrevétlenül kapcsolódni az élő szövetekhez...

szerda 17:34

Az MI‑chipversenyben a győztes már rég nem Kína

Érdekes felvetés, hogy az utóbbi évek amerikai exportkorlátozásai, amelyek célja Kína elzárása volt az élvonalbeli félvezetőktől, végül inkább Kína saját technológiai fejlesztését pörgették fel, mintsem lassították volna azt...

szerda 17:17

Az ukrán hekkernő az orosz kibertámadások titkos segítője

🕵 Az amerikai hatóságok vádat emeltek egy 33 éves ukrán nő, Victoria Eduardovna Dubranova (ismertebb nevén Vika, Tory vagy SovaSonya) ellen, mert orosz hátterű hekkercsoportokat segített kibertámadásokban világszerte, többek között amerikai vízrendszerek, választási rendszerek és atomerőművek ellen...

szerda 17:03

Jön az ausztrál tinédzser közösségimédia-tilalom: új korszak indul?

Érdemes megvizsgálni, hogy miért kelt világszerte ilyen nagy visszhangot az ausztrál döntés, amely elsőként tiltotta be országos szinten a 16 év alattiak közösségi médiához való hozzáférését...

szerda 16:49

Az adelaide-i zöldterületek fenntarthatósága veszélyben?

Adelaide városának zöldterületei kulcsszerepet játszanak a klímaszabályozásban, a biodiverzitás megőrzésében és az élhetőség javításában...

szerda 16:33

A perzselő hőség hátráltatja a kisgyermekkori fejlődést

A szokatlanul magas hőmérséklet miatt a kisgyerekek egyre nehezebben érik el a korai tanulási mérföldköveket, leginkább az olvasás és a matematika terén...

szerda 16:17

A Mars-utazás küszöbén állunk – tényleg ennyire közel?

Az Egyesült Államok Tudományos, Mérnöki és Orvostudományi Akadémiái egy átfogó jelentésben részletesen bemutatják, miért lenne sorsfordító, ha végre űrhajósokat küldenénk a Marsra...