2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 06:49

Az áttörést ígérő rák-vérteszt megbukott a nagyszabású vizsgálaton

😞 A rák korai felismerését célzó innovatív tesztek már évekkel ezelőtt izgalomba hozták az orvostudományt: sokan remélték, hogy ezek segítségével egyszerű vérvétellel még idejében felfedezhető a legtöbb daganat...

MA 06:37

A Yellowstone-ból videojáték készülhet – apád kedvenc sorozata jön konzolra?

A Yellowstone (Yellowstone) körüli világ most új irányba bővül: videójáték-adaptáció készülhet a kultikus családi westernből...

MA 06:28

A MassMutual MI-stratégiája: 12 hónapos szerződések, 30%-os ugrás, nulla kötöttség

A MassMutual az MI-korszak gyors változásaira rugalmas és ötletes választ talált...

MA 06:21

Az Xbox mélyrepülése új fokozatba kapcsol: ingyen konzolok, leépítések

💥 A Microsoft fényűző Los Angeles-i bemutatóval indította a nyarat, ahol a közelgő játékcímekkel lelkesítette a közönséget: vadonatúj Halo, Gears of War-előzmény és egy friss, Senua főszereplésével készülő akciójáték is terítékre került...

MA 06:05

Történelmi események a mai napon (Június 11.)

Átívelve évszázadokon, ezen a napon felszabadult 80 ezer kínai fogoly, meghalt egy skót király, a szövetségesek nyomására trónváltás történt Görögországban, és az USA létfontosságú segítséget küldött a Szovjetuniónak a II...

szerda 20:55

A WSOP-on már Solanával is fizethető a nevezés

🃋 A Las Vegas-i World Series of Poker idei versenyén már digitális valutával, a Solanával is lehet nevezési díjat fizetni...

szerda 20:34

A stadion Wi-Fi az igazi veszély: hétből tíz VB-szurkoló kockáztatja adatait

A közelgő 2026-os labdarúgó-világbajnokság apropóján milliók készülnek arra, hogy a stadionokban és környékükön közös élményeken osztozzanak – de nem zárható ki annak a lehetősége, hogy épp ez a lelkesedés teszi őket a digitális bűnözők célpontjaivá...

szerda 20:23

Az új Fable-ben nincs többé szarv vagy glória – mert újraalkothatod magad

💫 Fontos kérdés, mitől lesz igazán egyedi az érkező Mese (Fable) újraértelmezés, amely ezúttal szakít a régi játékokra jellemző, látványos erkölcsi skálákkal...

szerda 20:12

Az első amerikai szabálytervezet: a CFTC felrázza az előrejelző piacokat

Erre utal többek között az, hogy az Amerikai Árutőzsdei Kereskedelmi Bizottság (CFTC) nyilvánosságra hozta az első, előrejelző piacokat érintő szabályozási javaslatát, amely jelentős változást hozhat a sport- és politikai fogadások világában...

szerda 20:01

A végső frissítés: mind a 26 új katalizátor a Destiny 2-ben

⚡ A Destiny 2 végső nagy frissítése minden eddiginél izgalmasabbá varázsolja a fegyvereket...

szerda 19:56

A három pénisszel született férfi, aki halála után felajánlotta testét – orvosi rejtély

A brit egyetem orvostanhallgatóit különleges felfedezés várta, amikor egy 78 éves férfi holttestét boncolták: a férfi nem egy, hanem három pénisszel született...

szerda 19:45

Az atlanti hidegfolt a Golf-áramlat gyengülését jelzi

Az Atlanti-óceán északi részén, Grönland és Izland déli vizein egy furcsa, lehűlt terület jelent meg, amelyet évek óta vizsgálnak a kutatók...

szerda 19:34

Az otthoni iroda új királya: itt a Secretlab Atlas

💼 Fontos kérdés, hogyan tehetjük kényelmessé és praktikusabbá az otthoni munkavégzést. A Secretlab új széke pontosan ezt célozza: az Atlas egy kifejezetten otthoni irodába tervezett szék, amely a kényelmet és az egészséges tartást ötvözi...

szerda 19:23

A testben közvetlenül termel és juttat gyógyszert a génmódosított féreg

🐍 Genetikailag módosított fonálférgek forradalmasíthatják a gyógyszerbevitelt, miután a kutatóknak sikerült olyan horogférget alkotniuk, amely képes létfontosságú antitoxint termelni az élő szervezetben...

szerda 19:12

A Logitech új, összehajtható egere saját hordtáskával érkezik

🖱 A hordozható eszközök forradalma újabb meglepetéssel bővült: a Logitech megalkotta az első összecsukható gamer egeret...

szerda 19:01

A kvantumóra ketyeg: a veszély a Bitcoint fenyegeti, nem az Ethereumot

⌛ Különösen említést érdemel, hogy az utóbbi hónapokban új lendületet kapott a digitális eszközök biztonsági kockázatainak vizsgálata...

szerda 18:44

A CoinDesk 20 esik 1,4%-ot, minden tag mínuszban

📉 A piac egészét rövid idő alatt pirosba borította az eladási hullám, a CoinDesk 20 indexe pedig 1,4%-kal, 1663,81 pontra csökkent a kedd délutáni állapothoz képest...

szerda 18:34

Az Activisiontól mini csodák sorozatával szabadult a Toys for Bob

Érdemes megérteni, hogy a Toys for Bob hosszú utat járt be, míg odáig jutott, hogy újra önálló stúdióként dolgozhasson saját játékán...

szerda 18:24

A gépi tempójú védelem kora: újra kell építeni a SOC-ot

A kibertámadások sebessége és kifinomultsága sosem volt akkora, mint napjainkban. A hagyományos védelmi rendszerek egyre kevésbé tudnak lépést tartani az MI-vezérelt támadásokkal...

szerda 17:01

A bíró lecsapott: MI-halucinációk miatt két év eltiltás, bírság, 60 nap szünet

🚧 Érdemes megérteni, hogy egy amerikai perben egyszerre négy ügyvédet is rajtakaptak azon, hogy valótlan, MI által kitalált jogi hivatkozásokat használtak...

szerda 16:57

Az Anthropic mégis kiadta a túl veszélyesnek ítélt Fable 5-öt

😵 Lényeges szempont, hogy az Anthropic új MI-modellje, a Fable 5 most először válik közvetlenül elérhetővé a nagyközönség számára, noha korábban még maga a cég is túl kockázatosnak tartotta a nyilvános bevezetését...

szerda 16:34

A Philips új égbolt-lámpája lenyűgöz, de okos funkciók nélkül túlárazott

A Philips bemutatta legújabb mennyezeti lámpáját, amely igazi tetőablak-hatását kelti, és a természetes napfény élményét nyújtja a lakásban...

szerda 16:01

A Zcash és a Hyperliquid vezetik az esést, shortolják a bitcoint

📉 A kriptovaluta-piacokat ismét jelentős nyomás alatt tartja a közelgő amerikai inflációs adatok várakozása, miközben a bitcoin árfolyama újra 61 500 dollár (kb...

szerda 15:56

Az MIT új űrhajtóműve akár Marsra repítheti a kisműholdakat

A világűr meghódítása az elmúlt években óriási fejlődésen ment keresztül, de a kis műholdak – az úgynevezett CubeSatok – még mindig komoly korlátokkal küzdenek...

szerda 15:45

A Google Gemini világszerte akadozik: ezt tudjuk eddig a leállásról

⚠ Reggel óta rengetegen tapasztalják, hogy a Google Gemini nem működik rendesen: hibák sorozata jelenik meg az asztali és mobil változatban is, a felhasználók pedig valódi segítség nélkül maradnak...

szerda 15:34

A Microsoft rekordot döntött: több mint 200 sebezhetőséget foltoztak be

A Microsoft minden eddiginél nagyobb javítócsomagot adott ki június közepén, amely majdnem 200 különböző biztonsági rést szüntetett meg a Windows operációs rendszerben és a kapcsolódó szoftverekben...

szerda 15:23

A Kelet-antarktiszi jégtakaró mélyén óriási, legyező alakú szerkezetre bukkantak

🖼 Egy hatalmas, legyezőszerű formációt fedeztek fel a kelet-antarktiszi jégtakaró alatt, amely több, eddig is ismert medencét köt össze a felszín alatt...

szerda 15:12

A júniusi Windows 11-frissítés három nagy dobása: villámgyors appok és menük

⚡ Megérkezett a Windows 11 júniusi frissítése, amely több fontos újdonságot hozott magával, és ha eddig lassúnak érezted a rendszert, most végre fellélegezhetsz...

szerda 14:56

A Bitcoin DeFi-projekt lehúzta a rolót: senkit sem érdekelt

🛑 A Botanix, a Bitcoin második rétegű hálózata, mindössze egy évvel a főhálózat indulása után végleg leállította a működését...