Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

kedd 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

MA 14:50

Az online gyermekbántalmazás tombol – Van ebből kiút?

Érdekes felvetés, miszerint a digitális világ folyamatosan változik, miközben az online térben minden eddiginél nagyobb fenyegetést jelent a gyermekek szexuális kizsákmányolása és bántalmazása...

MA 14:33

Az Adobe MI-őrülete bejött: szárnyal a cég

Az Adobe 2025-ben újabb rekordévet zárt, 8 400 milliárd forintos bevételt ért el, ami 11 százalékos növekedést jelent az előző évhez képest...

MA 14:18

A rejtélyes Trója titkai: egy új mozaik mindent átír

🌍 Kivételesen jó állapotban fennmaradt római kori mozaikot tártak fel Nagy-Britanniában, amely a trójai háború ábrázolásával lepte meg a kutatókat...

MA 14:02

Az óceán mélye rejtélyesen tünteti el a szenet

🌊 Különösen említést érdemel, hogy a legújabb kutatások alapjaiban rengetik meg eddigi tudásunkat arról, miként raktározódik a szén az óceánok sötét mélységeiben...

MA 13:49

Az áradások árnyékában: Ázsia jövője a klímaváltozás markában

Az elmúlt hónapban Indonéziát és Srí Lankát sújtó két trópusi vihar összesen közel 1600 ember életét követelték, miután hatalmas esőzéseket és földcsuszamlásokat okoztak...

MA 13:01

Az MI és a robotika új korszakot hoz a brit kutatólaborokban

A Google DeepMind jövőre megnyitja első automatizált kutatólaborját az Egyesült Királyságban, ahol MI-t és robotikát vetnek be a kísérletekhez...

MA 12:34

Az Adobe Photoshop mostantól ingyen használható a ChatGPT-ben

Érdemes megérteni: forradalmi változás történt. Az Adobe legnépszerűbb kreatív és produktivitási alkalmazásai, köztük a Photoshop, az Express és az Acrobat, mostantól közvetlenül elérhetők a ChatGPT-ben...

MA 12:17

Az eltűnt Mars-szonda rejtélye: a NASA tanácstalan

A NASA váratlanul elveszítette a kapcsolatot a Maven nevű űrszondával, amely már több mint tíz éve kering a Mars körül...

MA 12:01

Az életmentő Mars-szonda leállt: bajban a NASA

A NASA egyik kulcsfontosságú marsi műholdja, a MAVEN, december 6-án váratlanul elnémult, amikor a Mars túlsó oldalán járt – azon az oldalon, amelyik nem néz a Föld felé...

MA 11:49

Az Apple TV és az Apple Music egyszerre omlott össze

Délután néhány felhasználó számára elérhetetlenné váltak az Apple Music és az Apple TV, ráadásul az Apple TV Channels funkciója sem működött...

MA 11:33

Az új Teams riaszt, ha gyanús a külső forgalom

A Microsoft egy friss biztonsági funkción dolgozik a Teamsben, amely képes elemezni a gyanús forgalmat külső domainekkel, ezzel segítve az IT-adminisztrátorokat a potenciális biztonsági kockázatok kiszűrésében...

MA 11:17

A DroidLock lecsap: androidos telefonokat zárol, váltságdíjat követel

Egy frissen felfedezett androidos kártevő, a DroidLock zárolja az áldozatok készülékeit, miközben az SMS-ekhez, híváslistákhoz, névjegyekhez, hangfelvételekhez is hozzáfér, sőt, akár törölheti is az adatokat...

MA 11:01

Az Nvidia tényleg a saját chipjei után kémkedik?

Az Nvidia új szoftveres megoldáson dolgozik, amellyel ellenőrizheti, pontosan melyik országban vannak az MI-chipjei – nem véletlenül, mivel egyre többen vádolják a céget azzal, hogy processzorait Kínába csempészik...

MA 10:57

Az SK Hynix amerikai hódításra készül az MI-őrület csúcsán

👑 A dél-koreai SK Hynix, amely az Nvidia legnagyobb memóriagyártó beszállítója, komolyan fontolgatja, hogy tőzsdére lép az Egyesült Államokban...

MA 10:50

Az űr csendje lecsapott: megszakadt a kapcsolat a MAVEN-nel a Marsnál

A NASA elveszítette a kapcsolatot a Mars körül keringő MAVEN szondával, miután az a bolygó mögé került, és visszatérése után sem sikerült újra elérni...

MA 10:44

Az űripar aranyláza: a SpaceX tőzsdére lép

🚀 A SpaceX évekig elutasította a tőzsdei bevezetést, most azonban mégis IPO-ra készül – és ez óriási változás Elon Musk gondolkodásában...

MA 10:37

Az űr az új adatközpont, és már mindenki oda tart

A technológiai cégek versenyt futnak, hogy az első adatközpontokat az űrbe telepítsék...

MA 10:22

Az Oracle önti a pénzt, az MI aggasztja a befektetőket

💸 Az Oracle jelentősen megemelte a mesterséges intelligenciához kapcsolódó jövőbeli kiadásait: a 2026-os pénzügyi évben 15 milliárd dollárral többet tervez befektetni a felhőinfrastruktúrába, mint korábban becsülték...