2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 08:44

Az RGB LED tévék kavarják a piacot, trónon maradhat az OLED

💡 Az utóbbi években egyre nagyobb várakozás övezte az RGB háttérvilágítású tévéket...

MA 08:36

Az új Galaxy S25 Ultra: vízálló, de sós vízben nem

💧 A Galaxy S25 Ultra mostantól Ocean móddal vadonatúj, víz alatti fotózási élményt hoz, amit eleinte csak korallzátonyokon búvárkodó óceánkutatók használhattak...

MA 08:29

Itt az első valóban kvantumbiztos Bitcoin-pénztárca-mentő prototípus

A Bitcoin egyik vezető fejlesztője, Olaoluwa „Roasbeef” Osuntokun most először bemutatott egy működő prototípust, amely vészhelyzeti frissítés esetén megmentheti a felhasználók pénztárcáit, ha a hálózatot valaha kvantumszámítógépes támadás ellen kellene védeni...

MA 08:22

Az elit sprinterek titka: tényleg nem a technika a kulcs?

🏃 Évtizedeken át azt hittük, hogy a villámgyors sprinterek sikerének kulcsa egyetlen, tökéletes futótechnika követése...

MA 08:15

A Meta új csodafegyvere: megérkezett a Muse Spark MI

Naná, hogy a Meta nem bírta ki, muszáj volt valami ütőssel villantania az MI-parádén...

MA 08:01

A legújabb kártyalopási trükk: láthatatlan SVG-vel csapnak le a csalók

Érdekes fejlemény, hogy az utóbbi hetekben közel száz, Magento-alapú webáruház vált áldozatává egy látványosan ügyes hekkertámadásnak...

MA 07:57

Az újonnan felfedezett sejttípus nyithatja meg az anya–magzat titkát

👶 Tudósok most először készítettek részletes térképet a méhlepény és a méh felépítéséről, amely megmutatja, miként alakulnak át ezek a szövetek a terhesség során, hogy a fejlődő embriót támogassák...

MA 07:49

Az Amazon végleg lekapcsolja a régi Kindle-t – itt a váltás ideje?

Május 20-tól az Amazon a 2012 előtt gyártott Kindle-olvasókat jegeli: ezekkel a kütyükkel többé nem lehet új könyvet vásárolni, kölcsönözni vagy akár letölteni...

MA 07:43

Az új Google-integráció: egyesül a Gemini és a NotebookLM tudása

Érdemes tudni, hogy a Google két legerősebb MI-szolgáltatása, a Gemini és a NotebookLM mostantól egy új, közös funkcióval bővültek...

MA 07:29

Megérkezett az első kvantumbiztos mentőöv a Bitcoin-pénztárcákhoz

A Bitcoin egyik vezető fejlesztője, Olaoluwa “Roasbeef” Osuntokun különleges mentőeszközt készített, amely végső védelmet nyújthat, ha a Bitcoin közösségének valaha is kvantumszámítógépekkel kellene szembenéznie...

MA 07:22

A szégyenlistának annyi: érkezik az Xbox achievement-szépítés

Na most kapaszkodj, mert hamarosan rejtetté teheted azokat a játékokat az Xbox achievement-listádban, amikre már nem vagy büszke, vagy csak félig sikerült kipörgetned...

MA 07:15

Az új kínai nátriumakku végleg leszámol a tűzveszéllyel

⚡ A modern akkumulátorok egyik legnagyobb veszélye a túlmelegedés, ami könnyen tűzhöz, gázképződéshez vagy akár robbanáshoz is vezethet...

MA 07:08

Az új Dyson HushJet Mini Cool: menő, de drága mulatság

Oké, minden, amit eddig gondoltál a kézi ventilátorokról, mehet a kukába – a Dyson bemutatta a HushJet Mini Cool nevű újdonságát, aminek brutális, 65 000-es fordulatszámú motorja van...

MA 07:01

Az égből érkezik a burritó: drónnal szállít a DoorDash Atlantában

🌮 A DoorDash és a Wing vadonatúj, mindent felrázó együttműködésbe kezdett Atlantában, aminek lényege, hogy mostantól drónnal szállítják ki a kaját!..

MA 06:57

Az MI-ügynök önállósodik: érkezik az önjavító kód

A jelenlegi autonóm MI-ügynökök legnagyobb kihívásai közé tartozik, hogy miként tudnak alkalmazkodni a folyamatosan változó környezetükhöz anélkül, hogy minden alkalommal újra kellene tanítani a mögöttes nagy nyelvi modellt...

MA 06:50

Az Artemis II nagy visszatérése: hazaút a világűrből

Tipikus eset, amikor néhány különleges ember napokra elhagyja a Földet, és az egész emberiség együtt izgul velük...

MA 06:45

A nagy áttörés: az MI önállóan vadássza a súlyos szoftverhibákat

⚡ Az MI legújabb fejlesztése, a Claude Mythos Preview, képességeivel alapjaiban forgatja fel a kiberbiztonság világát...

MA 06:36

Az iPhone Fold-videó kamu – így bukik le a trükk

Többek között az Apple hajlítható mobilja körül is pezsegnek a pletykák, nem véletlenül: ahogy közeledik a szeptemberi bemutató, a netet elárasztják a látványos hamisítványok – köztük egy videó, amelyen mintha a régóta várt iPhone Fold bontására kerülne sor...

MA 06:30

A Muse Spark érkezik: a Meta nekimegy az MI-elitnek

Noha a generatív MI korszakában a Meta eddig az Llama-modellekkel hódította meg a fejlesztőket és kutatókat, a vállalat most teljesen új irányt vesz: bejelentette Muse Spark nevű, saját fejlesztésű, zárt mesterségesintelligencia-modelljét, amely ígérete szerint mindent újrakezd a digitalizációban...

MA 06:22

A csalók már a Script Editort is használják: vigyázz, mit indítasz!

⚠ Érdemes megérteni, hogy az Atomic Stealer nevű kártékony szoftver új trükkel támadja a Mac-felhasználókat...

MA 06:08

Az a nap, amikor a Microsoft tiltólistára tette a VeraCryptet

Na most kapaszkodj, mert a Microsoft gondolt egy nagyot, és egyik napról a másikra megszüntette a VeraCrypt fejlesztői fiókját...

MA 06:05

Történelmi események a mai napon (Április 9.)

Időutazás egyetlen napra: ma koronázták meg V. Henriket, ma adta meg magát Lee tábornok a polgárháborúban, és ma indult meg Németország Dániára és Norvégiára...

MA 06:01

Az Amazon kivégzi a régi Kindle-öket, a felhasználók visszavágnak

📚 Az Amazon május 20-án megszünteti az összes, 2012-ben vagy korábban kiadott Kindle támogatását...

szerda 21:45

Az év üstököse: már feltűnt a PanSTARRS az éjszakai égen

🚀 A PanSTARRS-üstökös (PanSTARRS, C/2025 R3) már ezen a héten izgalomba hozza a csillagászokat és a korán kelőket, hiszen folyamatosan fényesedik az éjszakai égbolton, és hamarosan megközelíti a Földet és a Napot is...

szerda 20:45

A valóban mérgező emberek ritkák – így szúrd ki őket!

Az emberek többsége becsületesebb és önzetlenebb, mint hinnéd. Egy kísérletben a részt vevők dönthettek: megtartják a kapott 3 650 forintot, vagy odaadják egy idegennek, amivel az összeg négyszeresére nő...

szerda 20:34

Az apró OPPO Pad Mini: zsebméretű, menő, és imádja a rivaldát

Te is utálod, hogy minden tablet szögletes, komor, és a dizájnjuk évtizedes?..

szerda 20:23

Az adatháború új kora: a Microsoft és a digitális bunkerek

Komolyan mondom, a Microsoft most háborús övezetekben lép pályára – nem tankkal, hanem szuperszámítógépekből épített digitális erőddel!..

szerda 20:12

Az iPhone végre véget vet a követő reklámoknak

A legújabb iPhone készülékek mindent tudnak, amit csak kívánhatnál, de valójában igazi kincsesbánya a hirdetők és adatbrókerek számára...

szerda 20:01

Az új NordVPN: villámgyors, letisztult és okosabb mint valaha

⚡ Megérkezett a NordVPN asztali alkalmazásának frissítése, amely teljesen átdolgozott felületet és jóval átláthatóbb működést kínál...