2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

hétfő 21:56

A fáraók csillogó gyászruhája: a gyöngyhálók titkos története

💎 Ez a látványos, több mint 4500 éves, gyöngyhálóból készült óegyiptomi ruha igazi ritkaság, amely kifejezetten egy nő temetésére készült a piramisok korában...

hétfő 21:34

A zsarolóvírusok orosz királya lebukott: így csaptak le UNKN-re

🔒 A német hatóságok hivatalosan is leleplezték Daniil Makszimovics Scsukint, azt a 31 éves, krími születésű orosz hackert, aki évekig „UNKN” fedőnéven működtette a hírhedt GandCrab- és REvil-zsarolóvírus-bűnbandákat...

hétfő 21:02

A víz alatti élet titka: miért nem fulladunk meg?

Az emberiség elképesztően sokszínű környezethez alkalmazkodott az évezredek során. Bárhol nézünk szét a Földön, megtalálhatók olyan közösségek, amelyek a legextrémebb körülményeket is túlélhetővé tették – sőt, otthonukká formálták...

hétfő 20:57

Az olcsó tárhelynek befellegzett: hová mentse most az adatait?

📤 Ebből következően érdemes megérteni, hogy az adattárolás egyre nagyobb kihívást jelent: a videók felbontása és mérete folyamatosan nő, a projektekhez szükséges fájlok könnyen túllépik a több száz MB-ot, miközben a megbízható, nagy kapacitású és megfizethető fizikai tárolók lassan eltűnnek...

hétfő 20:46

A mesterséges intelligencia megelőzi a katasztrófákat: itt a NeuBird Falcon

🕵 Kezdetben a technológiai ipar egyik legfőbb jelszava az volt, hogy haladj gyorsan, és törj össze dolgokat...

hétfő 20:12

A T‑Mobile lekapcsolja a régi mobilokat – lejárt az idő

⏱ Alig pár napja, hogy a T-Mobile frissítette a hálózatát, és elbúcsúzott néhány régi biztonsági szabványtól, amelyeket a 2017 előtti, régi androidos vagy iPhone-ok használtak...

hétfő 20:02

A MacBook Neo tényleg megváltoztatja a hétköznapokat ennyiért?

💻 Az Apple jó ideje nem dobott piacra új MacBook modellt, így sokan kíváncsian várták a Neo érkezését...

hétfő 19:56

Az MI-háború küszöbén: Altman vészjelzése az emberiségnek

Tipikus eset, amikor a technológia fejlődése villámgyorsan átírja a játékszabályokat: az MI már nemcsak elméleti fenyegetés, hanem a mindennapi gazdaság húzómotorja...

hétfő 19:34

Az internet kora elszabadította a zaklatást: sosem látott esetszám

Az elmúlt tíz évben Angliában és Walesben mintegy ötvenszeresére emelkedett a rendőrség által nyilvántartott zaklatási ügyek száma, tavaly több mint 135 ezer bűncselekményt regisztráltak, szemben a tíz évvel korábbi majdnem 3 ezerrel...

hétfő 19:24

Az új diplomások kálváriája: miért sosem volt ilyen nehéz állást találni?

💼 Az egyetemi diplomát szerző fiatalok idén minden eddiginél szigorúbb munkaerőpiaccal szembesülnek...

hétfő 19:13

Az új Moto Watch: sportóra, vagy csak mutatós kiegészítő?

A Moto Watch első pillantásra komoly versenytársnak tűnik a fitneszórák piacán...

hétfő 19:02

A NEAR berobban, az Avalanche száguld – kriptóőrület hétvégén

Micsoda fordulat a hétvégén! A kriptopiacon mindenki a NEAR Protocolra kapta fel a fejét, mert 8,1%-ot hasított – komolyan, ez már nemcsak véletlenül elszabadult rakéta...

hétfő 18:56

Az Artemis II élőben kerüli meg a Holdat – ilyen még nem volt!

A NASA épp most ír történelmet az Artemis II küldetéssel. Reid Wiseman, Christina Koch, Victor Glover és Jeremy Hansen lesznek azok, akik minden eddigi űrhajósnál messzebb utaznak a Földtől, az Orion űrhajóval...

hétfő 18:45

A magányos bitcoin-bányász, aki egy csapásra meggazdagodott

🤑 Egy magányos bitcoin-bányász szenzációt keltett, amikor mindössze 230 terahash/s számítási kapacitással sikerült validálnia a 943 411-es blokkot...

hétfő 18:23

Az új Walmart 4K-s streaming stick: tényleg megéri?

📺 A Walmart legújabb, 4K-s streaming stickje már csendben megjelent néhány üzlet polcán, így a vásárlók már most is beszerezhetik az UHD-minőséget kínáló eszközt...

hétfő 16:45

A Samsung Ultra villámgyorsan tölt, de az akku csak közepes

⚡ A Samsung legújabb csúcsmobilja, a Galaxy S26 Ultra elsőként kapott 60 wattos vezetékes gyorstöltést, amivel végre felzárkózott a versenytársak szintjéhez...

hétfő 16:34

Az univerzum óriás fekete lyukai éheznek – miért?

🧰 Az elmúlt 10 milliárd évben a világegyetem legnagyobb fekete lyukai feltűnően lassabban növekedtek, mint korábban...

hétfő 16:24

A fényalapú chipek hozzák el az MI következő nagy ugrását?

Az ipart formáló, stratégiai jelentőségű innovációként tör előre a szilícium-fotonika: ez a technológia főként a fejlett MI-, kommunikációs és adatinfrastruktúra alapkövévé válik...

hétfő 16:01

A végső leszámolás az otthoni téves riasztásokkal

A legtöbb otthoni riasztórendszer használója találkozott már az éjszaka közepén megszólaló szirénával vagy ok nélkül működésbe lépő füstérzékelővel...

hétfő 15:56

A Bitcoin veszélyben – zár alá kerülnek Satoshi pénztárcái?

⚠ A világ legnagyobb Bitcoin-vagyona veszélybe került, mivel új kvantumszámítási technikák már 2029-re képesek lehetnek feltörni Satoshi Nakamoto pénztárcáit akár kilenc perc alatt is...

hétfő 15:46

Az MI felfalja a SaaS-t: Túl korán temetjük a szoftvereket?

Az idei év elején komoly hullámokat vetett a technológiai piac, amikor a fejlett MI-megoldások, mint az Anthropic Claude jogi feladatmodulja, egyetlen nap alatt 104 ezermilliárd forintnyi piaci értéket tüntettek el a tőzsdékről...

hétfő 15:34

Az iPhone mostantól rászól, ha koszos a kamerád – mert miért ne?

Gyerekek és mobilkamerák – ez aztán páros! Ha hagyod, hogy a kis kezek rátegyék a tappancsukat a mobilodra, tuti, hogy pár ujjlenyomat és egy adag titokzatos trutyi landol a képernyőn, sőt, a kamerán is...

hétfő 15:22

Az IMF riadót fúj: a tokenizáció megrengetheti a pénzpiacokat

⚠ A blokkláncon megjelenő valós eszközök tokenizációja forradalmasíthatja mind a kriptopiacokat, mind a hagyományos pénzügyi rendszert, de új kockázatokat is teremt, amelyekre a szabályozóknak egyelőre nincs válaszuk...

hétfő 15:14

A 8849 Tank X: a mobil, ami túléli a világvégét

🛡 A 8849 Tank X-szel első pillantásra kiderül: ez nem hétköznapi okostelefon...

hétfő 15:03

Az egyszeri génszerkesztés átírhatja a koleszterincsökkentés szabályait

Érdemes megvizsgálni, hogy egy kísérleti génszerkesztéses eljárás milyen áttörést hozhat a veszélyesen magas koleszterinszint kezelésében azok számára, akiknek a hagyományos gyógyszerek nem válnak be, vagy egyszerűen nem képesek hosszú távon következetesen szedni azokat...

hétfő 14:45

Az égbe törő mobiltornyok: közeleg a hálózati forradalom

A világ távközlési infrastruktúrája jelentős átalakulás előtt áll: a műholdas rendszerek mellett most a sztratoszférába emelt, irányítható léghajók is megjelentek az adatátvitel forradalmian új formájaként...

hétfő 14:24

Az új Google Fotók-trükk: villámgyors MI-szerkesztés a Pixel telefonokon

⚡ A Google ismét a Pixel-tulajdonosoknak kedvez egy izgalmas fejlesztéssel: a Google Photos MI-alapú fotójavító funkcióját most kettéosztja...

hétfő 14:04

Vége a játéknak: bezár a Robot Cache, oda a játékgyűjtemény

A 2018-ban indult Robot Cache digitális játékbolt gyors bukásának története a kriptoőrület egyik utórezgése...

hétfő 13:45

Az új memóriavédelem végre nyugalmat hozhat a Samsung-felhasználóknak

Ez a jelenség jól illusztrálja, hogy az okostelefonokon futó alkalmazások gyakran észrevétlenül is helytelenül kezelik a memóriát, ami adatvesztéshez, engedély nélküli hozzáféréshez vagy akár komolyabb biztonsági résekhez vezethet...