2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 08:01

Az Xbox legsötétebb napja: fejlesztők, elbocsátások és végtelen körforgás

💀 Matt Firor, a ZeniMax Online Studios alapítója elég markánsan emlékszik vissza arra a napra, amikor egy húzással két nagy stúdiót, a Tango Gameworksöt és az Arkane Austint is bezárták az Xboxnál...

MA 07:57

Az MMO-k halhatatlansága: tényleg már 2001-ben temették őket?

🕷 Senki sem várta volna, hogy a többjátékos online szerepjátékokat (MMO-k) már több mint húsz éve is temették...

MA 07:50

Az ódon épületek borzongása: tényleg az infrahang a ludas?

A régi házakban vagy pincékben sokan titokzatos, megmagyarázhatatlan nyugtalanságot éreznek, akár anélkül, hogy bármi szokatlant látnának vagy hallanának...

MA 07:43

A legendás Warcraft III visszatért a Battle.netre

🎮 Hosszas várakozás után a klasszikus Warcraft III újra elérhető a Battle...

MA 07:36

A Marvel még az MI-nél is szigorúbb: amikor Juggernaut nem ugorhatott

Az 1990-es években a Marvel világa nyitott a videojáték-fejlesztés felé, de hőseinek és gonosztevőinek kezelése terén minden apró részletre odafigyelt...

MA 07:28

A maláriás szúnyogok újraírják az evolúció törvényeit

A malária nemcsak megtizedelte őseinket, hanem döntően befolyásolta, hol élhettek, hogyan alakultak közösségeik és végső soron miként jutottunk el idáig...

MA 07:22

A mormon feleségek titkos életéből kiszáll Whitney Leavitt – nagy Broadway-bejelentés

Whitney Leavitt, aki A mormon feleségek titkos élete (Secret Lives of Mormon Wives) egyik főszereplője, váratlanul jelentette be távozását a népszerű Hulu-sorozatból – épp a Broadwayn futó, nagysikerű Chicago (Chicago) előadásán, vasárnap este...

MA 07:15

Az internet temeti Olivia Wilde-ot, pedig csak a kamera halt meg

💀 Olivia Wilde legutóbbi vörös szőnyeges megjelenésével nem kis riadalmat keltett: igencsak furcsán festett a San Francisco-i Nemzetközi Filmfesztiválon, ahol új filmjét, A meghívót (The Invite) népszerűsítette...

MA 07:08

A miami kriptocsúcs idei legütősebb pillanatai

💸 Miami a héten igazi kriptófővárossá válik, ahol a Consensus 2026 konferencia több tucat szakmai vitával és kulisszatitkokkal kecsegtet...

MA 07:02

A robotcowboyok tarolnak: megint bedőlt egy online lövölde

🤠 Hatalmas hullámvölgyek jellemezték az idei évet az online többjátékos játékok piacán, ahogy ez a korábbi években is megszokottá vált...

MA 06:57

A NYT Connections ravasz játéka: te hány csoportot találsz el?

A Connections mai kihívása komoly fejtörést okozott a játékosoknak. Tizenhat szó közül kell megtalálni azokat a négyes csoportokat, amelyek valamilyen témában összetartoznak...

MA 06:49

Az amerikai óriásbankok már közel a Bitcoinhoz – de kivárnak

💰 A nagybankok – köztük a Morgan Stanley – egyre komolyabban foglalkoznak a digitális eszközök piacával, miután nő az ügyféloldali igény a Bitcoin iránt...

MA 06:43

A hullámvasúton szárnyal Jeremy Allen White – a gyerekei is!

🎉 Nem hiszem el, de Jeremy Allen White nemcsak a Star Wars univerzumában repked, hanem most éppen a valóságban is rátolt egy nagy adrenalinbombát a gyerekeivel!..

MA 06:36

A Norton lerántotta a leplet az első MI‑ügynökös VPN-ről

💡 A Norton VPN for Agents a VPN-ek világában egy teljesen új irányt képvisel: kifejezetten MI-ügynökökre optimalizált, önállóan működő megoldásról van szó, amely feleslegessé teszi a klasszikus kliensalkalmazásokat és a bonyolult telepítési folyamatokat is...

MA 06:29

A Quordle örök dilemmája: ma melyik szó a nyerő?

🤔 A mai Quordle (1561. játék) kifejezetten izgalmasra sikerült, ugyanis négy különböző magánhangzó játszott szerepet – A, E, I, O, valamint U –, de a Y ezúttal nem érdemel figyelmet...

MA 06:21

A kávé meglepő hatásai: az emésztést és az agyat is turbózza

A University College Cork kutatói nagyszabású vizsgálatot végeztek arról, miként befolyásolja a kávé az emésztőrendszert és az agyműködést...

MA 06:05

Történelmi események a mai napon (Május 4.)

Mai időutazásunkon merényletek, döntő csaták és világtörténelmi fordulópontok sorakoznak. Kiemelkedik a német kapituláció 1945-ből, a kent állami lövöldözés 1970-ből, a Greenpeace születése, valamint Rabin és Arafat békemegállapodása...

vasárnap 21:12

Az ingyenes Shakira-koncert kétmillió embert vonzott Rio tengerpartjára

Rio de Janeiroban szombat este felejthetetlen hangulat uralkodott, amikor Kolumbia szupersztárja, Shakira adott ingyenes koncertet a legendás Copacabana strandon...

vasárnap 21:01

Az MI leleplezi a távoli világok titkait

Az asztronómia világában új mérföldkőhöz érkeztek a Warwicki Egyetem kutatói, akik több mint 100 exobolygó létezését erősítették meg a NASA TESS űrteleszkópjának adataiból...

vasárnap 20:56

A legújabb Windows 11-fiaskó: miért falja fel a memóriát?

Jellemző, hogy egyre több felhasználó szenved a Windows 11 memóriaigényétől, miközben a memóriamodulok megdrágultak, és alig akad pénztárcabarát RAM a piacon...

vasárnap 20:45

Az amerikaiakat még soha ennyi csaló nem csapta be

Fontos kérdés, hogy miért növekednek megállíthatatlanul a különböző csalások az Egyesült Államokban...

vasárnap 20:34

Az emlékeink csak illúziók – a Boltzmann-agy rejtélye

💡 Könnyen lehet, hogy amit szilárd emléknek és valóságnak tartunk, csupán véletlenszerű fizikai folyamatok eredménye...

vasárnap 20:23

Az ásványbányászat rejtett ára: beteg gyerekek, mérgezett víz

🚨 A tisztább, zöldebb jövő felé vezető út tele van ellentmondásokkal: a mesterséges intelligenciához, szélerőművekhez, mobiltelefonokhoz, elektromos autókhoz és védelmi rendszerekhez nélkülözhetetlen kritikus ásványokat döntően a világ legszegényebb vidékein bányásszák, az ott élők egészsége és környezete pedig végzetesen megsínyli ezt...

vasárnap 20:12

Az idő megbicsaklik: apró hibát találtak a valóság szövetén

A kvantummechanika világa tele van meglepő, néha meghökkentő elméletekkel. Az egészen parányi részecskék nem viselkednek úgy, mint a hétköznapi tárgyak: egyszerre több állapotban lehetnek jelen, amit szuperpozíciónak nevezünk...

vasárnap 19:56

A legújabb botrány: tinédzserek feldúlták a New York-i Szcientológia-egyházat

🔥 Szombat délután káosz tört ki a New York-i Szcientológia-egyház épületében, amikor egy csapat tizenéves randalírozva betört az oldalajtón, és súlyos károkat okozott az ingatlanban...

vasárnap 19:46

Az iPhone 17 és az iPhone Air: dizájn vagy teljesítmény?

Az Apple új okostelefon-párosával igazán nehéz melléfogni, akár a klasszikus funkcionalitás, akár a feltűnő dizájn vonz...

vasárnap 19:34

Az új memóriacsoda felrúgja a miniatürizálás szabályait

Tipikus eset, amikor a mobiltelefon túlmelegszik, az akkumulátor villámgyorsan lemerül, éppen a legrosszabb pillanatban...

vasárnap 19:24

A konzolélmény a zsebedben: kipróbáltuk a GameSir G8 Galileót

🕹 Érdemes megérteni, mennyire közel kerülhet a mobilos játékélmény a konzolos szinthez...

vasárnap 19:13

Az űrverseny új ásza: az AMD szembeszáll a bezárkózással

Az űriparban egyre nagyobb hangsúlyt kap a rugalmasság és a rendszerkompatibilitás, hiszen az űrbéli eszközöknek szigorú energia- és hőmérsékleti korlátokkal, időszakos földi kapcsolattal és rendkívül hosszú élettartammal kell számolniuk...