2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

kedd 21:56

A valódi bitcoin-mélypont még előttünk – elmarad a 2026-os csúcs?

2024 első felében a bitcoin továbbra is hullámvasúton mozog: miközben sok elemző már az új bikapiacot ünnepli, a digitális valuta veterán befektetője, Michael Terpin borúsabb képet fest a következő hónapokra...

kedd 21:45

Az Avian Alarm küldetés összes trükkje és titka az Arc Raidersben

Az Arc Raiders legújabb, eddigi legnagyobb frissítése többek között elhozza az Avian Alarm projektet, amelyben madarakat kell alkalmaznod, hogy megfigyeld a szeizmikus aktivitást és a légköri változásokat Speranza területén...

kedd 21:34

Az AirPods végre Androidon is úgy működik, ahogy kell

Például eddig az AirPods csak egyszerű Bluetooth fülhallgatóként funkcionált Androidon, így az összes kényelmi és extra lehetőség nélkül kellett beérniük a felhasználóknak...

kedd 21:23

A mesterséges intelligencia túljár az eszeden: a blokklánc kipakolja céges titkaidat

🕵 Egy lényeges szempont, hogy az adatnaplózás és a digitális tranzakciók korában mindennél fontosabb, mit és hogyan osztasz meg a világgal...

kedd 21:12

Az antianyag hullámként viselkedik: áttörés a kvantumfizikában

💪 Érdekes felvetés, hogy az anyag – és most már az antianyag is – nemcsak részecskékből, hanem hullámokból is állhat...

kedd 20:56

A kihalt rokonaink titka: miért tűntek el a neandervölgyiek?

🧠 Érdemes megvizsgálni, hogy miért tűntek el a neandervölgyiek, miközben a Homo sapiens meghódította Európát...

kedd 20:34

A Fallout legendás atyja belevág az utolsó játékába

🎮 Tim Cain, a Fallout egyik megálmodója közel harminc év után ismét felbukkanna a játékfejlesztés színpadán, még egyszer, utoljára, mielőtt végleg visszavonulna...

kedd 20:23

Az Aave nagy mentőakciója a kriptokáoszban

🛡 Fontos kérdés, hogyan lehet helyreállítani a decentralizált pénzügyi (DeFi) rendszerekbe vetett bizalmat, amikor egyetlen támadás több százmillió dolláros rést üt a rendszerbe...

kedd 20:01

A Curiosity rejtélyes marsi molekulái az élet nyomaira utalnak

🔬 A NASA Curiosity marsjárója lenyűgöző változatosságú szerves molekulákra bukkant a Marson, köztük olyan vegyületekre is, amelyek a földi élet kémiai alapjaival rokoníthatók...

kedd 19:46

Az első tollas dinoszaurusz átírja a madarak eredetét

A múlt század végéig a világ csupán néhány kövületből próbálta megfejteni, miként váltak a madarak különálló lényekké...

kedd 19:34

Az új Steam Controller jön először – a RAM-hiány az oka

🕹 A Valve új hardverei közül elsőként a Steam Controller debütál 2026...

kedd 19:22

Az MI-adatközpontok forradalma: szárnyal a Galaxy Digital, mérsékli veszteségét

A Galaxy Digital az első negyedéves veszteségét sikeresen csökkentette, és most új, izgalmas területen terjeszkedik: Texasban és a mesterségesintelligencia-adatközpontok irányába...

kedd 19:01

A nagy Bitcoin-háború: Satoshié a kincs, vagy a befektetőké?

💸 A kriptovilág új frontot nyit: a közelgő eCash hard fork, amelyet 2024 augusztusára jelentettek be, alaposan felkorbácsolta a kedélyeket...

kedd 18:57

Az első adatközpont, ahol emberi agysejtek is számolnak

A világ egyik legizgalmasabb technológiai újdonsága készül Melbourne-ben: egy ausztrál startup laborban növesztett emberi idegsejtekkel működő adatközpontot fejleszt, amely a hagyományos szilíciumchipek mellé biológiai processzort is beilleszt...

kedd 18:45

Az új Robinhood-hack: hamis riasztások árasztják el a felhasználókat

⚠ Mind több felhasználó kapott riasztó e-mailt a Robinhood nevében, amelyben szokatlan bejelentkezési tevékenységről tájékoztatták őket...

kedd 18:34

Az MIT kutatói lézerekkel új korszakot nyitnak az agyképalkotásban

💡 Az MIT kutatói meglepő optikai jelenségre bukkantak, amely új távlatokat nyithat az élő szövetek gyorsabb és részletesebb leképezésében...

kedd 18:23

Az álmok titkos élete: tudatosabbak, mint gondolnád

💤 Az álmok nemcsak spontán jelennek meg éjszaka, hanem valójában agyunk kreatív remixei: személyiségünk és élményeink összefonódásából egészen új, néha szürreális történeteket alkotnak...

kedd 17:34

A telihold szürreális műalkotássá festette az indonéz folyót

🌕 Az Indonéziában, Szumátra szigetén kígyózó Rokan-folyó torkolatában egészen különleges látvány tárult a Landsat 8 műhold elé: a vízben lebegő üledék látványos, ecsetvonásszerű rajzolatokat festett a felszínre...

kedd 17:12

Az ördög Pradát visel 2: Végre itt, mindenki erről beszél

🔥 Jellemző példa erre, hogy a 2006-os kultikus vígjáték folytatására hihetetlenül sokat kellett várni: a divat világát kifigurázó Az ördög Pradát visel (The Devil Wears Prada) második része május 1-jén debütál a mozikban világszerte...

kedd 17:02

Az iráni hekkerek lecsaptak: veszélyben az amerikai tengerészgyalogosok adatai

🔫 Többek között közel 2400, a Perzsa-öböl térségében szolgáló amerikai tengerészgyalogos személyes adatait hozta nyilvánosságra egy iráni kiberbanda, amely már hónapok óta szervezi támadásait...

kedd 16:56

A PlayStation-tábor forrong a 30 napos ellenőrzés miatt

🔥 Több PlayStation-felhasználó igazi rémálomként élte meg, hogy a Sony digitális boltjából vásárolt játékoknál feltűnt egy új, 30 napos licencellenőrzési kötelezettség...

kedd 16:46

Az MI végre munkába áll: a Mistral Workflows betör a vállalatokhoz

💼 A francia székhelyű Mistral AI, amelynek értékét 11,7 milliárd euróra (kb...

kedd 16:34

Az amerikai infláció, háborús pánik és gyenge jen ledöntötte a bitcoint

Az év eleji menetelés után a bitcoin ára a héten 28 millió forint (76 500 dollár) környékére húzódott vissza, messze az áhított 29,5 milliós (80 000 dollár) árfolyamtól...

kedd 16:22

Az izraeli digitális sékel megérkezett: stabilcoin a blokkláncon

Izrael első hivatalosan szabályozott stabilcoinja elindult: a Bits of Gold nevű tel-avivi kriptotőzsde két évnyi tesztidőszak után megkapta az engedélyt, így már stabilcoint bocsáthat ki a helyi pénznemhez, a sékelhez kötve...

kedd 16:12

Az első 6K-s gamer monitor: forradalom vagy parasztvakítás?

A Samsung bemutatta az Odyssey G8-at (G80HS), amely a világ első 6K-s, 32 hüvelykes gamer monitora, és 1 499 eurós (kb...

kedd 16:01

Az MI elveszi a fiatalok munkáját? Egy vezető kiutat mutat

💡 Az utóbbi években rengeteg fiatal, főként a Z generáció tagjai, épp arra ébrednek rá, mennyire semmivé vált az a tudás, amivel az iskolapadból kikerültek...

kedd 15:57

Az apró távcső, amelytől ámulnak az égbolt rajongói

👀 A DwarfLab Dwarf Mini igazi újdonságnak számít azoknak, akik egyszerűen, gyorsan és minimális vesződéssel szeretnének égi fotókat készíteni...

kedd 15:45

Az OpenAI új mobilja trónfosztja az iPhone-t?

📱 Az OpenAI újabb meglepetéssel készül a techvilágnak: a korábbi pletykákkal ellentétben nemcsak digitális hangrögzítőn, viselhető kiegészítőn vagy okoshangszórón dolgozik, hanem egy saját fejlesztésű mobilchipen is, ami egy teljes OpenAI-mobiltelefon eljövetelét vetítheti előre...

kedd 15:34

Az áramhálózatot már robotok irányítják: startol Kína nagy dobása

⚡ A kínai hatóságok idén 8 500 vadonatúj robotot vetnek be az ország energiaellátásának megújítására...