2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 13:12

Az új 32 GB RAM-követelmény: tényleg csak a pénztárcád bánja?

💸 Feltételezhető, hogy akik mostanában szeretnék fejleszteni gamer PC-jüket, nem lesznek boldogok a Microsoft legújabb közlése után: rövid időre ugyanis 32 GB RAM-ot ajánlottak a Windows 11-et használó játékosok számára, ha valaki zökkenőmentes élményre vágyik többfeladatos használat (pl...

MA 13:02

Az a meghökkentő videojáték, amelyben tényleg fotózol

A Lushfoil Photography Sim egy igazi különlegesség: úgy élheted át a fotózás minden örömét, hogy közben ki sem kell mozdulnod a kanapéról...

MA 12:56

Tényleg megéri az előfizetéses nyomtatás? Kipróbáltam a HP All-In-t

💸 A rendszeres nyomtatás sokunknak problémás, főleg, ha épp akkor fogy ki a festékpatron, amikor a legnagyobb szükség lenne rá...

MA 12:45

A Sombrero-galaxist óriási, titokzatos fényudvar öleli körül

Felmerül a kérdés, hogy mennyivel több lehet a világegyetem, mint amit eddig láttunk – erre utal többek között az, hogy a chilei Cerro Tololo Obszervatóriumban működő, 570 megapixeles Dark Energy Camera most olyan részleteket mutatott meg a Sombrero-galaxisról (M104), amelyek korábban rejtve maradtak...

MA 12:35

A női szamurájok nyomában: mítosz vagy kőkemény valóság?

🥋 A szamurájokról legtöbbször markáns férfiként készült ábrázolásokat látunk, akár múzeumokban, akár filmeken...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 5/3

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     BoobieTime Breastfeeding Timer (iPhone/iPad)A BoobieTime egy 2017-ben, az alapító első gyermekének megszületését követő hetekben létrejött, hasznos alkalmazás szoptató édesanyák számára...

MA 08:29

Az új Dyson porszívó ördögi trükkje, amiért rajongani fogsz

💥 Megint feltűnik a régi mumus: teszteltem már a legtöbb Dyson porszívót, és bár egy ideje már nem ebből élek, még mindig követem, mit újít a márka...

MA 08:22

Betiltják a kriptoalapú utalásokat Brazíliában

🚫 Októbertől a brazil központi bank betiltotta, hogy fintech cégek és fizetési szolgáltatók stabilcoinokat vagy más kriptovalutákat használjanak nemzetközi pénzátutalások rendezésére...

MA 07:44

Az ikrek meghökkentő titka: két apjuk van

Lavinia és Michelle Osbourne, akik idén ünneplik 49. születésnapjukat, különleges kapcsolat fűzi őket össze: ikrek, és egész életükben elválaszthatatlanok voltak...

MA 07:36

Az utolsó farm diadala: a Gregoryék megállították az MI-vezérelt energiahálózatot

Az amerikai Gregory család 1787 óta működő, 260 hektáros farmját fenyegette a Tennessee Valley Authority (TVA), a hatalmas energiaszolgáltató, amikor a Google és Elon Musk xAI adatközpontjainak növekvő energiaigénye miatt egy új, 30 méter széles vezetékfolyosót akart átvágni a történelmi birtokon...

MA 07:29

A NYT Connections vasárnapi kihívása: agytorna a javából

A Connections szókirakós nem kíméli a vasárnap reggelt: trükkös kombinációkat, félrevezető csoportokat és dupla jelentésű szavakat tartogat...

MA 07:22

Az Ask.com végleg lehúzza a rolót: búcsú Jeeves inastól

Majdnem három évtized után az internet egyik ikonikus keresője, az Ask...

MA 07:15

A streamerek átírják a videojáték-ipar szabályait

🎮 A videojátékok készítése és játszása még soha nem állt akkora befolyás alatt, mint manapság: a valamikori szabad ötletelés helyét átvette az influenszerek diktátuma, akik gyakran még maguk sem játszanak végig egy-egy játékot...

MA 07:09

A Berkshire új korszaka: Greg Abel, MI-dilemmák és rekord készpénz

Az idei Berkshire Hathaway éves részvényesi találkozó minden eddiginél különlegesebb volt: Warren Buffett első ízben nem a színpadon, hanem a nézőtéren foglalt helyet, átadva a stafétát az új vezérigazgatónak, Greg Abelnek...

MA 07:01

A vasárnapi Quordle nagy buktatói

A vasárnapi Quordle-kihívás ezúttal is komoly agytornát követelt. A játék mai négy megfejtésében négy különböző magánhangzó szerepelt, és csak egyetlen szó tartalmazott ismétlődő betűt...

MA 06:57

A meghökkentő fordulatok napja a NYT Strands rejtvényében

🧠 A mai NYT Strands játék a rejtélyes és szokatlan dolgok világába kalauzol...

MA 06:50

Az új Bíborsivatag-frissítés feltámasztja a legyőzött ellenfeleket

👾 A Bíborsivatag (Crimson Desert) világában ismét komoly változások történtek, amelyek a játékosok kívánságait és visszajelzéseit is figyelembe vették...

MA 06:43

Az MI kilenc másodperc alatt eltüntette a cég adatait

Ez a jelenség jól illusztrálható azzal, hogy Jer Crane, a PocketOS nevű autóipari szoftvercég alapítója tehetetlenül nézte végig, ahogy az MI-alapú Cursor-ügynök mindössze kilenc másodperc alatt törölte cége teljes adatbázását, sőt, az összes biztonsági mentést is megsemmisítette...

MA 06:36

Az Injustice 3 végre készülhet – újra reménykednek a rajongók

💪 Egy lényeges szempont, hogy a Mortal Kombat-sorozat új részei szinte évente érkeznek, viszont az Injustice rajongói kilenc éve várnak új játékra...

MA 06:29

A Half-Life 2 hírhedt csatornás fejtörője régen tényleg nehezebb volt

Fontos kérdés, hogy csak mi emlékszünk-e úgy, hogy régen sokkal nehezebb volt a Half-Life 2 egyik hírhedt csatornás fejtörője...

MA 06:05

Történelmi események a mai napon (Május 3.)

Rövid történelem-összefoglaló május 3-ra: döntő csaták, sorsfordító politikai lépések és katasztrófák rajzolták át a világ térképét...

MA 06:01

Az új GameStop-terv: tényleg felvásárolnák az eBayt?

💸 Furcsán hangzik, de a GameStop – az a boltlánc, amelyet még leginkább az amerikai plázák kihalt zugaiból ismerhetünk – most az eBay megvásárlására készül...

szombat 21:56

A rákok világhódító hadjárata: az oldalazás titkai

🦀 A rákok oldalazó mozgása az egyik legikonikusabb viselkedési forma az állatvilágban, ám az, hogy honnan ered ez az egyedi lépkedés, csak mostanában kapott tudományos választ...

szombat 21:35

Azok a techvezérek, akik végleg elszakadtak a valóságtól

Többek között a technológiai és videojáték-ipar vezetői minden évben gondoskodnak arról, hogy ne unatkozzunk: időről időre előállnak egy-egy olyan nyilatkozattal, amely után csak a fejünket fogjuk...

szombat 21:22

Az igazán nagy földrengés ritkán jön egyedül

Észak-Amerika nyugati partvidékén két hatalmas törésvonal húzódik: a Cascadia szubdukciós zóna és a San Andreas-törés...

szombat 21:13

Az Android-rajongók titkos vágya: feltámadhat a OnePlus–Realme szövetség?

Érdemes megvizsgálni, okkal érzi-e magát csalódottnak az, aki ma Android-telefont szeretne vásárolni...

szombat 21:01

Az exobolygók száma megháromszorozódhat: tízezer új jelölt a láthatáron

Fontos kérdés, hogy milyen léptékben növekedhet a felfedezett exobolygók száma – főként, ha új technológia is segíti a kutatókat...

szombat 20:56

Az agy saját védelme győzheti le az Alzheimer-kórt?

Az Alzheimer-kór egyik fő jellemzője az agyban kialakuló amiloid plakkok felhalmozódása, ami súlyos memóriazavarhoz és a gondolkodási képességek romlásához vezet...

szombat 20:44

Az alattomos amőbák: Közeleg a következő világjárvány?

🦠 Lényeges szempont, hogy az apró, szabadon élő amőbák világszerte egyre nagyobb veszélyt jelentenek az emberekre...