2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

péntek 21:56

A Hims & Hers ügyféladatai hackertámadásban szivárogtak ki

Az amerikai Hims & Hers telemedicinás cég nemrég feltárt kibertámadást szenvedett el, amelynek során támadók illetéktelenül hozzáfértek az ügyfélszolgálatának rendszeréhez, és bizalmas személyes információkat loptak el...

péntek 21:01

A piton titka: tényleg fogyaszt a kígyóvér-diéta?

Oké, kapaszkodj, mert a pitonok tényleg mindent visznek! Ezek a brutál nagy hüllők nemcsak hogy egészben lenyelik a zsákmányt, hanem utána hónapokig, sőt akár évekig is kibírják étel nélkül – és közben sem gyengülnek le, sőt, csúcsformában maradnak...

péntek 20:56

Az AO3 végre nagykorú: a fanfiction álma kilép a bétából

🎉 Tudod, amikor egy álom elindul, aztán kicsit sem siet sehová? Na, pont ilyen volt az Archive of Our Own, azaz AO3...

péntek 20:45

Az OpenAI nagy dobása: felvásárolta a TBPN-t

🚀 Az OpenAI váratlan lépést tett: felvásárolta a TBPN (Technology Business Programming Network) technológiai talk show-t, amely rövid idő alatt népszerűvé vált a Szilícium-völgyben...

péntek 20:23

A filléres ChromeOS Flex-kulcsokat percek alatt elkapkodták

Néhány nap alatt minden készlet elfogyott a Back Market és a Google legújabb, előretelepített ChromeOS Flex rendszert tartalmazó USB-kulcsaiból, pedig ezek az eszközök alig 1100 Ft-ba kerültek...

péntek 20:12

Az FCC nekimegy a routereknek – veszélyben a szabad szoftver?

🚥 Az utóbbi időkben szárnyra kapott hírek szerint az FCC, vagyis az amerikai hírközlési hatóság alaposan belepiszkált a routerek világába...

péntek 20:01

Az Everest mentési botránya: lehúzták a külföldieket a hegy lábánál

Most őszintén: észrevetted már, mennyi pénzt vonzanak az extrém kalandok? Az Everest idén sem úszta meg a botrányt: a nepáli hatóságok szerint egy hatalmas, 7 milliárd forintos (20 millió dolláros) mentési biztosítási csalást göngyölítettek fel, amibe túravezetők, egy mentőcég és fővárosi kórházak is alaposan belebonyolódtak...

péntek 19:46

Az Oh-My-God részecske: tényleg ez a kozmosz legnagyobb rejtélye?

😮 A Föld folyamatosan kozmikus sugarak záporában úszik, amelyek hol a Napból, hol más galaxisokból származnak...

péntek 19:01

Az amerikai adatközpontok fele leállt – hajtóvadászat transzformátorokért

Fontos kérdés, hogy miért torpantak meg az amerikai adatközpont-fejlesztések, miközben mindenki fejlesztési lázban ég...

péntek 18:57

Az új CorelDRAW Graphics Suite: MI-vel turbózza a kreativitást

A CorelDRAW Graphics Suite 2026 merész lépésekkel újít: a legmodernebb MI-alapú eszközöket integrálja díjnyertes kreatív szoftvercsomagjába, miközben továbbra is teljes értékű, egyszeri vásárlási lehetőséget kínál – ritka madár ez manapság...

péntek 18:46

Az elektromos autók nagy elszámolása: ki nyer, ki bukik Amerikában?

🚗 Többek között az egekbe szökő üzemanyagárak és a hathónapos visszaesési hullám rendesen megtépázta az elektromos autók amerikai térnyerését...

péntek 18:34

A csapvízben úszó műanyag: tényleg mindent elborít a vegyipar?

Csak hogy tiszta legyen: már a poharadban is ott úszik a rengeteg apró műanyag és gyógyszermaradvány, az amerikai környezetvédelmi hatóság pedig végre lépett...

péntek 18:24

Az iPhone-ból butafon: így szabadulj meg a képernyőfüggéstől!

Felmerül a kérdés, hogy mennyire befolyásolja mindennapjainkat az okostelefon-használat. Sokan tapasztalják, hogy bármelyik szabad percben automatikusan a készülék után nyúlnak, hogy görgessenek egyet X-en, Instagramon vagy Threadsön...

péntek 17:36

Az Alienware 18 Area-51, a gamer laptopok végső túlzása

Az Alienware 18 Area-51 már a neve alapján is sokat sejtet, de aki először meglátja, annak garantáltan leesik az álla...

péntek 17:13

Az univerzum új kezdetképe: vége a Nagy Bumm pillanatának?

💫 Az univerzum születése eddig egyetlen, végtelenül sűrű, pontszerű állapotként élt a köztudatban, ahol a fizika törvényei egyszerűen nem működnek...

péntek 17:01

Az Artemis II elrajtolt: az emberiség újra úton a világűrbe

A NASA Artemis II küldetése sikeresen kilépett a Föld körüli pályáról, és négy űrhajós indulhatott el a Hold körüli kalandra...

péntek 16:56

Az Apple CarPlay lekörözi az Android Autót: jön a Google Meet

🚗 Az Apple CarPlay újabb győzelmet aratott az Android Auto-val szemben, hiszen mostantól támogatja a Google Meet alkalmazást is autózás közben...

péntek 16:45

Az informatikus, aki 3284 gépet zárt le váltságdíjért

Egy volt informatikai mérnök beismerte, hogy zsarolási kísérletként több ezer Windows-eszközt zárolt munkahelyén, egy New Jersey-i központú ipari vállalatnál...

péntek 16:34

Az Amazon majdnem letiltotta A Fiúk 4. évadzáróját

🔫 Egy lényeges szempont, hogy A fiúk (The Boys) nemcsak szuperhős-szatíra, hanem kegyetlen tükör is az amerikai politikáról és társadalomról...

péntek 16:25

Az óriáspolipok szerelmi titkai: hormonok és furcsa praktikák

🐙 Három szív, kék vér, intelligens karok és végtelen rejtély – a polipok a Föld egyik legfurcsább lényei közé tartoznak...

péntek 16:12

Az IBM nagy dobása: a kvantumszámítógép, amely rekordideig működik

⚙ Ebből következően érdemes megérteni, hogy a kvantumszámítógépek világa ismét mérföldkőhöz érkezett...

péntek 16:02

Az ősi méhek nyomában: csontfészkek egy karibi barlang mélyén

A Karib-térségben, Hispaniola szigetén rendhagyó történet bontakozott ki több ezer évvel ezelőtt, ahol egy bagoly, egy hutia nevű rágcsáló és egy földbevájó méh találkozott egy barlangban...

péntek 15:56

Az új Windows-frissítés mindenkit utolér – nincs menekvés

A Microsoft mostantól automatikus frissítéssel kényszeríti ki a Windows 11 25H2 verziójának telepítését minden olyan háztartási és kisvállalati gépre, amelyeken jelenleg a Windows 11 24H2 fut, de nem állnak IT-rendszergazdai felügyelet alatt...

péntek 15:45

Az Oracle 30 ezer embert kirúgott – tombol az MI-mánia

💀 Az Oracle egyik reggel, még napfelkelte előtt e-mailben jelezte több tízezer dolgozónak, hogy még aznap megszűnik a munkaviszonyuk...

péntek 15:34

Az emberiség visszatér a Holdra: közeleg az Artemis II

🚀 Felmerül a kérdés, mit hoz a jövő, amikor újra emberek indulnak a világűrbe...

péntek 15:23

Az új Star Wars-sorozatban Maul visszatér – és kegyetlenebb, mint valaha

Darth Maulnak egyszerűen nem lehet ellenállni – komolyan mondom, most jön a Maul: Árnyúr (Maul: Shadow Lord) második évada!..

péntek 15:12

Az OpenAI váratlan húzása: médiacéget vásárolt, áll a bál

🚨 Tavaly az OpenAI egy hatalmas, 2300 milliárd forintos (6,4 milliárd dolláros) akvizícióval felvásárolta Jony Ive készülékfejlesztő startupját, idén pedig újabb meglepetéssel állt elő: a vállalat megvásárolta a Szilícium-völgyben villámgyorsan népszerűvé vált TBPN-t, egy háromórás, napi technológiai talk show-t készítő médiavállalkozást...

péntek 15:01

Az Exchange Online megint döcög: káosz a postaládákban

📦 Hetek óta visszatérő problémák nehezítik az Exchange Online postafiókhoz való hozzáférést, különösen az Outlook mobilalkalmazást és a Mac gépeket használókat érintve...

péntek 14:45

Az új Google Home végre a munkahely barátja

Hosszú várakozás után a Google Home alkalmazás immár teljes körűen támogatja a Workspace-fiókokat is, megszüntetve ezzel egy régóta fennálló problémát...