2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 21:35

A fojtogató autókorszaknak Kaliforniában végleg vége

🏍 A hetvenes évek elején Kaliforniában még mindennapos volt a szmog: a benzines autók indításakor sűrű, egészségtelen levegő csapta meg a környéket...

MA 21:24

A kvantumkatasztrófa közeleg: veszélyben az internet titkosítása

⚠ Felmerül a kérdés, hogy mennyi időnk maradt, amíg a kvantumszámítógépek valóban veszélyt jelentenek az internetes adatvédelemre és biztonságra – és hogy milyen gyorsan kell lépnünk ahhoz, hogy megússzuk a nagy leleplezést...

MA 21:13

Az új trónkövetelő? Laifen Wave Pro elektromos fogkefe teszt

Külön említést érdemel, hogy az elektromos fogkefék piacát régóta uralják a jól ismert márkák, most azonban a Laifen Wave Pro minden szempontból új szintre emeli az otthoni szájápolást...

MA 21:01

Az új Google Maps-frissítés átírja az értékelések szabályait

A Google Maps mostantól sokkal egyszerűbbé tette a helyek értékelését, valamint a fotók és videók megosztását...

MA 20:56

A Sony új őrülete: légy te a Gran Turismo 7 pilótája!

Már megint valami szokatlannal rukkol elő a Sony, és most tényleg érdemes odafigyelni...

MA 20:45

A Hold túlsó oldala: NASA-képek, amelyektől leesik az állad

A Hold túlsó oldaláról most végre közzétettek pár olyan képet, amitől azonnal a NASA-nak akarod adni az összes pókerpénzedet...

MA 20:34

Az Artemis II újraalkotta a legendás Földfelkeltét a Hold felett

🌕 A NASA Artemis II-küldetésének legénysége történelmi utat tett meg a Hold körül, miközben lenyűgöző felvételeket készített a Föld felkeltéről és lenyugvásáról a világűrből...

MA 20:24

A stresszűzés titkos fegyverei – kipróbáltuk, működnek

Az élet mindannyiunkat próbára tesz: a munka, a kapcsolatok, a szorongás és a hétköznapi gondok könnyen csapdába ejthetnek minket a saját gondolatainkban...

MA 20:12

A Moto G Stylus megdrágult, de a tolla okosabb lett

A 2026-os Moto G Stylus egyik legnagyobb újítása a továbbfejlesztett, új funkciókkal bővült érintőceruza...

MA 20:01

A mindössze 1% kripto is átírhatja a portfóliód sorsát

💸 Már egy minimális, mindössze 1%-os kriptovaluta-kitettség is képes jelentősen átrendezni egy befektetési portfólió kockázatait...

MA 19:23

Az orosz hackerek a routereken át fosztották ki a Microsoft-fiókokat

🔒 Érdekes fejlemény, hogy egy nemzetközi akció során sikerült lebuktatni azt az orosz hekkercsoportot, amely tömegesen törte fel otthoni és irodai routereket, hogy így Microsoft-fiókokhoz férjen hozzá világszerte...

MA 19:13

Az emberiség visszatér: lélegzetelállító képek az Artemis II holdközeli átrepüléséről

🚀 Április 7-én, az Artemis II küldetésének hatodik napján újra ember került közel a Holdhoz: a NASA és a Kanadai Űrügynökség négy űrhajósa történelmi Hold-kerülő pályára állt, az Apollo-korszak óta először közelítve meg így égi kísérőnket...

MA 19:01

A vadonatúj Moto Pad és Moto G Stylus: ki tud ellenállni?

Itt a tavasz, jön a friss Motorola-cunami: április 16-tól indul a 2026-os Moto G Stylus, majd rá két hétre, április 30-án debütál a vadonatúj Moto Pad táblagép...

MA 18:56

Az Apple hajlítható óriásmobilja letarolhatja az okostelefonpiacot

Érdemes megvizsgálni, hogy a mobil­dizájn világa új lendületet kaphat-e a következő hónapokban, amikor a széles hajlítható készülékek csatája veszi kezdetét...

MA 18:45

A következő nagy ugrás: az Artemis II visszatér a Holdról

A NASA négy fős legénységgel indította el az Artemis II-t, mellyel több mint ötven év után először térnek vissza emberek a Holdhoz...

MA 18:34

Az MI titkos fegyvere: a jól kezelt adat dönt

Érdemes megvizsgálni, hogy az utóbbi időben az MI fejlesztésében a hangsúly fokozatosan áttevődött...

MA 18:23

Az ASUS ZenBook A16: pehelysúlyú, mégis brutálisan erős

Amikor először kézbe veszed az ASUS ZenBook A16-ot, szinte hihetetlen, mennyire könnyű egy ekkora, 16 colos laptophoz képest...

MA 16:34

A Solana ellentámad: 100 milliárdos DeFi-hack után jön a biztonsági fordulat

🛡 Öt nappal azután, hogy a Drift Protocolt feltörték, és 270 millió dollár (kb...

MA 16:23

Az új Windows-fenyegetés: a BlueHammer totális káoszt okozhat

Egy elégedetlen biztonsági kutató szivárogtatta ki a „BlueHammer” nevű, súlyos Windows-sebezhetőség kihasználására alkalmas kódot, amely lehetővé teszi, hogy a támadók rendszergazdai vagy SYSTEM-jogosultsághoz jussanak...

MA 16:11

Az első kínai hidrogénhajtású turbólégcsavaros repülő már a levegőben

Miközben a világ szépen visszaállna a szokásos tempóra, Kína most beintett mindenkinek: felszállt az AEP100 nevű, hidrogénnel hajtott turbólégcsavaros gépük!..

MA 16:01

Az Anthropic többmilliárdos MI-megállapodást kötött a Google-lal és a Broadcommal

Az Anthropic bejelentette, hogy 2027-től kezdődően közel 3,5 gigawatt számítási kapacitást vesz igénybe, amelyet a Google fejlett tensorprocesszorai (TPU-k) biztosítanak...

MA 15:56

Az amerikai közlekedésbiztonsági hatóság végre túllépett a Tesla Smart Summon-botrányon

Hosszú hónapok vizsgálata után lezárta a Nemzeti Közúti Közlekedésbiztonsági Hivatal (NHTSA) a Tesla távoli parkolást megvalósító Smart Summon funkciójának ügyét, mivel a feltárt balesetek java része csupán apró koccanás volt – ráadásul mind alacsony sebességnél történt...

MA 15:45

Az MI-láz mellékhatásai: fizessenek a robotok, jöjjön a négynapos hét!

Oké, szóval az OpenAI most odavágott egy csomó zsírúj ötlettel, hogy kezeljük az MI miatt elszabaduló káoszt...

MA 15:36

Az MI forradalmasítja az ügyfélkutatást: gyorsabb, mélyebb, olcsóbb

A vállalatok számára a fogyasztók véleményének és viselkedésének megértése régóta kardinális kérdés, de az ehhez szükséges adatok összegyűjtése sok időt és pénzt igényelt...

MA 15:24

Az allergiaszezon előtt: Tartsd távol a pollent az otthonodtól

Ahogy beköszönt a tavasz, egyre többeket gyötörnek a pollenallergia tünetei: tüsszögés, orrfolyás, bedugult orr, kaparó torok, viszkető, könnyező szemek...

MA 15:13

A mesterséges intelligenciát tényleg kutyaürülékkel, pornóval és közösségi profilokkal tömik?

Tízezrek dolgoznak a Meta tulajdonában álló Scale AI nevű vállalatnál egy különleges feladaton: a mesterséges intelligenciát tanítják olyan adatanyagokkal, mint Instagram-képek, Facebook-profilok, sőt, szerzői jog alatt álló művek és pornográf hanganyagok...

MA 15:01

Az Anthropic rekordméretű MI-chipbeszerzése a Google-tól

💻 Az Anthropic hatalmas ugrást jelentett be: a vállalat éves bevétele már meghaladja a 11 000 milliárd forintot (kb...

MA 14:58

Az új Wegovy-tabletta berobban: tömegek kapkodnak a fogyás csodapirulájáért

💪 Évekig tartó próbálkozások után Jane Zuckerman felismerte, hogy a hagyományos fogyókúra nem mindenki számára hoz eredményt...

MA 14:45

Az antianyag végre útra kelt – kamion hátán!

🚗 Érdemes megvizsgálni, hogy a tudósoknak először sikerült teherautóval antianyagot szállítaniuk, ami jelentős előrelépés: lehetővé teszi, hogy ez a különösen instabil anyag eddig elképzelhetetlen pontosságú kísérletekben játsszon szerepet...