2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 19:12

Az első közös merülés: így működik a Subnautica 2 kooperatív módja

A Subnautica 2 végre lehetőséget ad arra, hogy ne egyedül, hanem akár négyen fedezzük fel az idegen vizek világát...

MA 18:56

Az új Xiaomi csíptetős, nyitott fülesei végre nem szivárognak?

🔈 A Xiaomi néhány látványos grafikával és a Vadonatúj forma (Brand new form) szlogennel jelentette be, hogy hamarosan piacra dobja első csíptetős, nyitott fülhallgatóját...

MA 18:44

A tudósok száz év után feltárták a kozmikus sugarak rejtett törvényét

Több mint száz éve tartó kutatások után váratlan fordulatot hozott a DAMPE (Dark Matter Particle Explorer) űrtávcső, amelynek legújabb megfigyelései végre áttörést jelenthetnek a kozmikus sugárzás eredetéről szóló rejtély megoldásában...

MA 18:34

A Control eleve RPG-nek készült: így született a franchise

A Control című játék világa már első pillantásra lenyűgöző: monumentális, letisztultan szürreális környezet, amely első blikkre egy metroidvania-játék benyomását kelti...

MA 18:23

A Kraken lecseréli a LayerZerót Chainlinkre a láncközi hidaknál

🚀 Érdemes megérteni, miért mozdult meg hirtelen a blokkláncvilág: a Kraken, az egyik vezető kriptopénz-tőzsde több milliárd dollárnyi kriptoeszközt mozgat át a LayerZero rendszeréről a Chainlink CCIP-re...

MA 16:13

A Forza Horizon 6: CPU-zabáló száguldás, vérszegény sugárkövetés, de simán fut

A várva várt Forza Horizon 6 végre megérkezett, hogy a japán főváros utcáin szabadítsuk el az autós káoszt...

MA 15:56

Az IKEA alakváltó bútorai: órákig vadásztam a rejtett funkciókra

Egy lényeges szempont, hogy az okos bútor megkönnyíti az életet a kis lakásokban...

MA 15:45

A Cisco 4000 embert elküld, miközben szárnyal az MI-üzlet

A Cisco 4 000 alkalmazott elbocsátását jelentette be, vagyis a globális munkaerő 5 százalékától válik meg...

MA 15:35

A Forza Horizon 6: Japán, és egy új funkció mindent visz

Kezdetben minden rajongó vágya volt, hogy a Forza Horizon sorozat eljusson Japánba, és végre valóra vált ez az álom...

MA 15:24

A Forza Horizon 6 teszt: japán autóőrület a csúcson

🏎 Ilyen eset például, amikor valaki egy alaposan tuningolt kei teherautóval száguld át Tokió szívében, Shibuya zebráin, miközben Babymetal dübörög az autó hangrendszerén – nehéz nem beleszeretni ebbe az autós fantáziavilágba...

MA 15:12

Az új 34”-es AOC játékmonitor ötödik generációs QD‑OLED-del, olcsóbban

Az AOC vadonatúj, 34 colos gaming monitora jelentősen olcsóbban kínálja ugyanazt a látványos kijelzőtechnológiát, amelyet sokan a kategória kedvencei közé tartozó ultrawide modellektől megszokhattunk...

MA 15:01

Az Insta360 ujjbegynyi 4K kamerája polaroidos külsővel, derékszintű keresővel

📷 Az Insta360 új ötletével szó szerint visszarepül az időben: megérkezett a vállalat szenzációsan apró Go 3S kamerájának „Retro csomag” (Retro Bundle) kiadása...

MA 14:57

Az első öntisztító légtisztító: tényleg az állattartók álma?

Az otthon tisztán tartása, különösen szőrös háziállatok mellett, igazi kihívás. A folyamatos porszívózás és légszűrő-tisztítás időrabló, a szűrők pillanatok alatt eldugulnak...

MA 14:45

A gagyi kerti lámpák kora lejárt: Govee napelemes okos fényfüzérei

Eleged van már abból, hogy a boltok polcairól levett napelemes fények egyetlen szezont sem bírnak ki, és estére inkább sötétben marad a kert?..

MA 14:33

Az első amerikai napi készpénzosztalékot fizető tőzsdei papír lehet a Strive SATA

💵 A Strive SATA részvénye június 16-tól minden munkanapon készpénzosztalékot fizet a befektetőknek, amire eddig egyetlen amerikai tőzsdén jegyzett értékpapír sem vállalkozott...

MA 14:23

Az MI-óriások IPO-sora elszívja a tőkét a kriptótól?

📈 Felmerül a kérdés, mennyi pénz áramlik hirtelen az MI-piacra, miközben a kriptovaluták háttérbe szorulnak...

MA 13:34

A Zelda élőszereplős filmje a vártnál korábban jön

🎥 Különösen említést érdemel, hogy a Nintendo váratlanul előrehozta a várva várt élőszereplős A Zelda legendája (The Legend of Zelda) film bemutatóját, így az a tervezettnél korábban kerül a mozikba...

MA 13:23

A Capcom nagy dobása: jönnek a folytatások, remake-ek és portok

Egy újabb sikeres évet tudhat maga mögött a Capcom, amely nemrég jelentette meg legújabb játékát, és sorozatban tizenegyedik éve ér el 10%-ot meghaladó üzemi nyereségnövekedést...

MA 13:12

Az inkognitó nem elég: ezt látja az internetszolgáltatód, ez véd meg

Sokan hiszik, hogy a böngésző inkognitó módja valóban elrejti a netes szokásaikat mindenki elől...

MA 12:56

A Moody’s csúcsra értékelte a Fidelity és a BlackRock tokenizált pénzpiaci alapjait

💰 A Fidelity és a BlackRock tokenizált pénzpiaci alapjai mostantól a Moody’s legmagasabb, AAA-mf minősítésével büszkélkedhetnek...

MA 12:45

A tudósok ilyet még nem láttak: az 1945-ös atomrobbantás különleges kristályt szült

A második világháború végének hajnalán, 1945 júliusában az amerikai hadsereg és a tudósok felrobbantották a világ első atombombáját Új-Mexikó sivatagában...

MA 12:33

A jövő heti Trump-mobil rajtja sem állítja meg a zuhanó mémcoint

Senki sem várta volna, hogy Donald Trump hivatalos mémcoinja, a TRUMP-token, nagyot ugrik a népszerűsége attól, hogy végre elindul a Trump Mobile telefonjának, a T1-nek a kiszállítása...

MA 12:23

Az OpenAI lecserélte a GPT-4o-t, a rajongók óriáskijelzőn ünnepelnek a Times Square-ön

🎉 A mesterséges intelligencia világában ritkán tapasztalható olyan lelkesedés, mint amilyet a GPT-4o váltott ki...

MA 11:45

A Wrexham első Championship-idénye: hol nézhető online az 5. évad?

🏀 Május 14-én, amerikai idő szerint 21 órakor indul az ötödik évad, amelyet az Egyesült Államokban az FXX, a világ többi részén pedig a Disney+ sugározza...

MA 11:34

A kínai pénzlevelű növény leveleinek megdöbbentő matematikai titka

A kínai szerencsepálma (Pilea peperomioides) hosszú ideje népszerű szobanövény, de most újabb izgalmas titokra derült fény: a növény levelei magukban hordoznak egy rendkívül kifinomult, természetes geometriai rendszert, amellyel eddig főleg az informatikában, hálózatok tervezésében vagy a várostervezésben találkozhattunk...

MA 11:12

A légkör meglepő titka: a CO2 lehűti a felső rétegeket

🌓 Felmerül a kérdés, hogy miközben a Föld felszíne folyamatosan melegszik, bolygónk felsőbb légkörei éppen ellenkező irányba változnak: gyorsan hűlnek...

MA 10:55

Az ETF-ekből rekord 635 millió dollár távozott: mi lesz a bitcoin árával?

Az amerikai spot bitcoin ETF-ekből egyetlen nap alatt 226 milliárd forintnyi, azaz 635 millió dollár értékű tőkét vontak ki a befektetők – ez a legnagyobb egynapos kiáramlás január vége óta...

MA 10:47

Az új Dutton Ranch: Beth és Rip felszántják Texast

Beth Dutton és Rip Wheeler elszakadnak a megszokott világtól, és egy egészen új fejezetet nyitnak Texasban – messze az eddig jól ismert Yellowstone-tól...

MA 10:38

A halálos „vörös ég” napviharát ősi fák árulták el

Több mint nyolcszáz évvel ezelőtti óriási napvihar nyomaira bukkantak japán kutatók eltemetett fák gyűrűiben és középkori krónikákban...