2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 18:02

A SpaceX tőzsdére készül: 2 billiós értéket jósol a kriptópiac

🚀 Elon Musk cége, a SpaceX a tőzsdére lépés küszöbén áll, a részvények kereskedése holnap indul a Nasdaqon...

MA 17:56

Az amerikai adatközpont-vitát MI-vel hamis, Kínához köthető fiókok befolyásolták

🔮 Az OpenAI több fiókot is letiltott, amelyek a közösségi médiában igyekeztek befolyásolni az adatközpontokkal és Trump elnök vámjaival kapcsolatos amerikai vitát...

MA 17:45

A TSMC máris újabb chipáremelést lebegtet – nem fog tetszeni

📈 Külön említést érdemel, hogy a számítástechnikai alkatrészek ára az utóbbi években folyamatosan nő, és nem látszik lényegi fordulat...

MA 17:02

Az Insta360 Luna Ultra 8K tényleg letaszítja a DJI Pocket 4-et?

Az Insta360 új, kétkamerás Luna Ultra kamerája forradalmi újdonságot hoz a vlogging világába, hiszen 8K felbontású videózásra képes, és már 280 ezer forint körüli áron (769,99 USD) beszerezhető...

MA 16:56

Az RMT-kaszinóbotok ellepték a városokat, de jön a visszavágó

🎲 Különösen igaz ez akkor, ha valaki a World of Warcraft Classic világában jár: a játékban megjelentek azok a botok, amelyek valódi pénzért cserébe árulják a játékbeli aranyat – megszegve ezzel minden szabályt...

MA 16:45

Az egyik legfurcsább ujjbegyes egér: építsd meg, ha feláldozol egyet

Annak kiderítésére, hogy mennyire lehet újragondolni egy gamer egeret, valaki most egy valóban bizarr, ujjheggyel vezérelhető „pókhálós” egeret készített 3D-nyomtatható műanyag vázzal...

MA 16:23

Az Alienware AW2525HM: 320 Hz-es bestia, de nem mindenkinek

👽 Az Alienware AW2525HM egy kimondottan gyors monitor, amit kifejezetten azoknak terveztek, akik a legkiemelkedőbb teljesítményt keresik kompetitív FPS játékokhoz...

MA 15:12

A 2026-os vb nyitóünnepsége élőben: ingyen, tévén és neten

🏆 Érdemes tudni, hogy a 2026-os labdarúgó-világbajnokság minden eddiginél grandiózusabb lesz: összesen 48 ország csap össze 104 mérkőzésen, 39 napon keresztül, ráadásul három ország – Mexikó, Kanada és az Egyesült Államok – egyaránt otthont ad a meccseknek...

MA 14:56

A ritka sírlelet rejtélye: nő, újszülött és egy ló teljes bőre Szibériában

👷 Dél-Szibériában kivételes sírt tártak fel, amelyben egy körülbelül 40 éves, középkori nő, újszülött gyermeke és egy teljes ló bőre feküdt egymás mellett...

MA 14:45

Az Apple váratlanul két Apple TV-t ejtett a tvOS 27-ből

Az Apple idén váratlanul kizárta a 2015-ös Apple TV HD-t és az első generációs Apple TV 4K-t a legfrissebb, tvOS 27 frissítéséből...

MA 14:34

A Corsair Galleon 100 SD: Stream Deck és K70, minden extrával

🖥 Megemlíthető továbbá, hogy a Corsair Galleon 100 SD nem hétköznapi mechanikus billentyűzet: két legendás termékvonal, az Elgato Stream Deck és a K70 billentyűzet technológiáit vegyíti...

MA 14:23

A Bitcoin áttör és tart egy kulcsszintet, amit Ether, Solana nem

💸 Felmerül a kérdés, hogy meddig tart még a Bitcoin lendülete, miközben a többi kriptovaluta látványosan gyengélkedik...

MA 13:45

Az óriási szakadék: a legtöbben semmit sem tudnak az adatközpontokról

Felmerül a kérdés, hogy mennyire vagyunk tisztában a mindennapi digitális életünket fenntartó technológiákkal...

MA 13:34

A Fülöp-szigeteki jegybank: engedély nélkül működik a Binance és partnere

Erre utal többek között az, hogy a Fülöp-szigeteki központi bank szerint a világ egyik legnagyobb kriptotőzsdéje, a Binance, valamint helyi partnere, a BlockShoals Technologies Inc...

MA 13:12

A DBS már lakossági ügyfeleknek is kínál tokenizált aranyat

🥇 A szingapúri DBS Bank idén bejelentette, hogy 2026 második felétől már nemcsak az intézményi befektetők, hanem a hétköznapi ügyfelek is egyszerűen, új, digitális formában vásárolhatnak aranyat...

MA 13:02

Az Egyesült Királyság így csap le az iparosított kriptocsalásra

Ebből következően érdemes megérteni, hogy napjainkra a kriptovalutához köthető csalások ipari méreteket öltöttek...

MA 12:56

Az aranyszemcsék indíthatták be az életet a Földön?

🤑 Erre utal többek között az is, hogy a tudomány mindmáig nem találta meg az egyértelmű választ arra, miként alakultak ki az első élő rendszerek a Földön...

MA 12:45

Az MI-átláthatóság lazul, a kockázat a vállalati IT nyakába szakad

⚠ Európában egyre élénkebb vita folyik arról, mennyire legyenek szigorúak a mesterséges intelligenciára vonatkozó átláthatósági szabályok...

MA 12:34

A BlackRock hozamfizető bitcoin ETF-je rajtra kész, árháborút indít

🚀 A BlackRock új bitcoin-alapja hamarosan elindul, és a versenytársaknál alacsonyabb díjjal csábítja a befektetőket...

MA 12:23

Az OpenAI–Visa megállapodás: az MI hamarosan helyetted vásárol és fizet

Fontos kérdés, hogy mennyiben változtatja meg mindennapi vásárlási szokásainkat, ha a mesterséges intelligencia már nemcsak segítséget nyújt, de szinte teljesen át is vállalhatja a vásárlási folyamatot...

MA 12:02

A műfűben 400 vegyi anyag – mennyire veszélyes?

Június 12-én a világ legjobb focistái ismét igazi füvön lépnek pályára a Los Angeles-i SoFi Stadionban, amikor az Egyesült Államok Paraguayjal mérkőzik meg a világbajnokságon...

MA 11:56

A tudósok leállítják a rák DNS-javítását, áttörve a gyógyszerrezisztenciát

Fontos kérdés, hogy miért tud a rák olyan makacsul ellenállni a kezeléseknek, és miért válnak bizonyos daganatok egy idő után szinte legyőzhetetlenné...

MA 11:45

A Microsoft okozta memóriaár-válság az Xboxot is térdre kényszerítheti

📈 Meglepő fordulatot vett a következő Xbox-generáció fejlesztése, ugyanis a Microsoft egyre inkább azzal számol, hogy nem tud olyan konzolt piacra dobni, amely valóban modernnek érződik, és közben a legtöbb ember számára elérhető áron kínálható...

MA 11:23

A LibreOffice szerint az Euro‑Office a Microsoft foglya – orosz szálakkal?

🕵 Az utóbbi időben heves vita alakult ki arról, mennyire szolgálja az állítólagosan európai fejlesztésű Euro-Office a digitális szuverenitás eszméjét...

MA 11:13

A 2026-os FIFA-vb bárhonnan: így hallgathatod élőben

🎙 A 2026-os FIFA-világbajnokság minden mérkőzését élőben követheted, még akkor is, ha éppen nem vagy otthon...

MA 10:57

Az MI és a big data megelőzné a hajléktalanságot – Vilmos herceg programja

Az Egyesült Királyságban nagy lépés készül a hajléktalanság felszámolására: egy több mint 25 szervezetet összefogó új kezdeményezés indult útjára, melynek célja, hogy korszerű adatkezeléssel és MI segítségével megelőzhetővé váljon a hajléktalanság...

MA 10:47

A sejtek öregedésének rejtett, visszafordítható okát találták meg

Az évek múlásával testünk sejtjei egyre kevésbé képesek energiát termelni és alkalmazkodni a változó igényekhez...

MA 10:37

A DDR5-árak 2028-ig nem normalizálódnak – sőt, ez optimista

A számítógép-alkatrészek folyamatos drágulása ismét a középpontba került: iparági vezetők szerint a DDR5 RAM-árak még legalább két évig biztosan nem térnek vissza elfogadható szintre, sőt egyesek szerint az igazi normalizálódásra akár 2029-ig vagy 2030-ig is várnunk kell...

MA 10:28

A Kingdom Hearts 4 előzetesében Héraklész és Elemi, dátum sehol

💓 A rajongók már hosszú ideje várják a következő nagy Kingdom Hearts-játékot, de a várakozás egyelőre nem lett könnyebb...