2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

hétfő 18:01

A Motorola a GrapheneOS-szal új szintre emeli a mobilbiztonságot

🔒 A Motorola bejelentette, hogy együttműködést kötött a GrapheneOS Foundationnel, vagyis azzal a csapattal, amely az egyik legfelkapottabb, biztonságra kihegyezett Android-változatot fejleszti...

hétfő 17:58

Az Android XR-re is megérkezik a Pixel 10 varázslatos fordítója

🤖 Barcelona legnagyobb technológiai expóján személyesen is kipróbálhattam a Google új Android XR-szemüvegeit...

hétfő 17:41

Az otthoni humanoid robotok forradalma: 15 évből pár hónap lett

Ez a jelenség jól illusztrálható azzal, hogy Benjie Holson robotikai kutató még tavaly szeptemberben meghirdette a Humanoid Olimpiát, ahol a háztartási robotokat valódi, emberi mindennapokat szimuláló kihívások elé állította...

hétfő 17:20

A mobilod mostantól a lakáskulcsod – na, ezt nézd, Samsung!

🔑 Most már szinte semmit sem kell magaddal cipelned, ha nálad van a telefonod...

hétfő 17:01

Az utolsó prémium Retroid: búcsú a Pocket 6 csúcsmodelljétől

A RAM-árak tényleg megbolondultak, és a Retroid egyszerűen nem bírja tovább...

hétfő 16:58

Az EU-bankok új stabilcoinja átírhatja a kriptovilág szabályait

Tizenkét vezető európai bank fogott össze, hogy még idén elindítsák a Qivalis névre keresztelt, euróhoz kötött stabilcoint...

hétfő 16:39

A legdrámaibb holdfogyatkozás közeleg: vérvörösre festi az eget

Különleges égi jelenség várható kedden: a Hold teljes fogyatkozása során világszerte milliók láthatják, ahogy természetes égi kísérőnk vérvörösbe borul...

hétfő 16:21

Az óraátállítás titkos fegyvere: így győzöd le a fáradtságot

A tavaszi óraátállítás mindig megzavarja a szervezetünket: idén március 8-án veszítünk egy órát az éjszakai alvásból, ami elegendő ahhoz, hogy másnap még nehezebben keljünk ki az ágyból...

hétfő 14:02

Az új Vivo X300 Ultra világuralomra tör: brutális Zeiss teleobjektívvel

📷 A Vivo Kínán kívül eddig alig volt jelen, de most komoly nemzetközi áttörésre készül...

hétfő 13:40

A Motorola Razr Fold: brutál üzemidő, csúcshardver, letaglózó ár

Minden szem a Motorola új hajlítható csúcsmobilján, a Razr Foldon van, és most végre lehull a lepel...

hétfő 13:20

A fény irányítja a kristályokat – az anyagformálás új kora

Fontos kérdés, hogy milyen mértékben alakítható át az anyag szerkezete a modern technológia révén...

hétfő 12:01

Az Ultra, amely újraírja a mobilfotózás szabályait

A Vivo X300 Ultra végre kilép a kínai piacról: Barcelonában, a 2026-os MWC-n mutatkozott be, és a márka megerősítette, hogy a készülék globálisan is elérhető lesz...

hétfő 11:59

Az udvariatlan MI-ügynökök túljárnak a jól neveltek eszén

A legújabb kutatások szerint a digitális beszélgetőpartnereket sokkal hatékonyabbá teszi, ha lehetőséget kapnak arra, hogy félbeszakítsák egymást, vagy akár váratlanul csendben maradjanak a viták során...

hétfő 11:39

Az új TCL-kijelző végre fellélegezteti a szemünket

A frissen fejlesztett AMOLED kijelző a papírszerű megjelenést és a gyengéd fényt ötvözi a modern mobiltechnológiával...

hétfő 10:55

Az okosórák és MI-eszközök új korszakát hozza a Snapdragon Wear Elite

A Qualcomm bemutatta a Snapdragon Wear Elite processzort, amely forradalmasíthatja az okosórák és más MI-eszközök teljesítményét...

hétfő 10:48

Az MWC 2026 slágerei: összecsukható gamer tablet, robotmobil és még több

💻 Érdemes megvizsgálni, hogy az idei barcelonai Mobile World Congress (MWC) mennyire kavarta fel a technológiai világot az új készülékek és szokatlan koncepciók bemutatásával...

hétfő 10:37

Az immunrendszer a ludas, amiért a nőknél tovább tart a fájdalom?

A kutatók évtizedekig elsősorban lelki vagy társadalmi okokkal magyarázták, miért marad fenn tovább a fájdalom a nőknél, mint a férfiaknál...

hétfő 10:29

Az aszteroida, amely üvegtengerré változtatta Brazíliát

Hatmillió évvel ezelőtt valami elképesztő erejű esemény történt a mai Brazília területén: egy hatalmas aszteroida csapódott be, és drámai üvegmezőt hagyott maga után...

hétfő 09:47

Megtalálták az első idegen asztroszférát egy Nap-szerű csillag körül

🚀 Egy közeli, fiatal csillagot sikerült megfigyelni, amint egy gázbuborék, az úgynevezett asztroszféra veszi körül – ilyen jelenséget eddig még nem sikerült lencsevégre kapni a Naprendszeren kívül, Naphoz hasonló csillag esetében...

hétfő 09:37

Az összecsukható mobilok új királya: megérkezett a Motorola Razr Fold

📱 A várva várt Motorola Razr Fold végre bemutatkozott az MWC-n: a gyártó első, könyvszerűen hajtogatható prémium telefonja az üzleti és kreatív felhasználókat célozza meg...

hétfő 09:29

A zseni mítosza miért dühíti a matematikusokat?

🧠 Mindenki emlékszik arra a jelenetre, amikor Matt Damon MIT-es takarítóként egy bonyolultnak tűnő matematikai feladvánnyal szembesül A zseniben (Good Will Hunting)...

hétfő 09:21

Az MI olvas a fejünkben: félelmetes vagy korszakalkotó?

Agyunk elektromos működése, amely hosszú időn át túl komplexnek tűnt a dekódoláshoz, most új dimenzióba lépett...

hétfő 09:10

A bubble tea tényleg veszélyes, vagy csak túltoljuk a parát?

🍵 A színes, fotóbarát bubble tea italok már lassan minden utcasarkon feltűnnek, és a fiatalok mellett egyre több felnőtt is beáll a sorba...

hétfő 08:55

A nagy intézményi pénz kifelé tart? 3000 milliárd forint tűnt el

💸 Most őszintén, könyörgöm, észrevetted már, hogy menekül a pénz a kripto-ETF-ekből?..

hétfő 08:47

Az emelkedő liftben tényleg nehezebbnek érzed magad?

A lift mozgása minden alkalommal megbolygatja a testérzeteket. Ahogy a füledben felkúszik a nyomás, a talpad alatt a padló keményebben feszül alád, vagy épp ellenkezőleg: hirtelen könnyebbnek érzed magad...

hétfő 08:38

Az északi fény márciusban: jön a nagy dobás?

A március elképesztő lehetőséget tartogat az északi fény megfigyelésére, hiszen évtizedek óta nem volt ilyen kedvező egybeesés a csillagászati körülmények és a naptevékenység szempontjából...

hétfő 08:19

Az MI az asztalodon: tarol a Lenovo robotkarja?

A Lenovo idei újdonságai között feltűnt egy különös robotkar, amely kiskutyaszemeket villogtat, és közben a munkahelyi hangulatot próbálja feldobni...

hétfő 07:55

A valódi MI-veszély nem a deepfake, hanem a hétköznapi suttogás

A társadalom többsége még mindig alábecsüli azt a komoly fenyegetést, amit az MI a közeljövőben jelent majd a mindennapokban...

hétfő 07:47

Az irodát forradalmasító Lenovo robot és a jövő munkahelyi kütyüi

A Lenovo idén több izgalmas prototípust is bemutatott, amelyek teljesen újragondolják az irodai munkát...