2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 09:43

Az iskolai verekedés késelésig fajult Tacomában

🛡 Négy diák életveszélyes sérülésekkel, egy biztonsági őr és maga a támadó pedig könnyebb sebekkel került kórházba a washingtoni Tacoma Foss High Schooljában csütörtök délután történt késelés után...

MA 09:36

Az új Total War: Warhammer 40 000-ben mindent elpusztíthatsz

A Totális háború: Warhammer 40 000 fejlesztői végre megerősítették, hogy a játékban nemcsak az épületek, hanem számos tereptárgy is rombolhatóvá válik...

MA 09:22

A nagyok szerint a Robinhood csak átmenetileg botlik meg

💰 A népszerű tőzsdei alkalmazás, a Robinhood a közelmúltban hullámvölgybe került, miután a vártnál gyengébb első negyedéves eredményeket közölt – elsősorban a kriptokereskedelem visszaesése miatt...

MA 09:15

Az április legvadabb robotjai: öt meghökkentő kedvenc

A robotok egyre inkább a hétköznapjaink részei, minden elképzelhető és elképzelhetetlen helyen felbukkannak...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 5/1

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Monthly Dystopia (iPhone/iPad)A Monthly Dystopia egy disztópikus túlélőjáték, amelyet George Orwell 1984 című műve inspirált...

MA 09:08

Az OpenAI goblin-tilalma: amikor az MI már túltolja

A mesterséges intelligencia világában néha egészen szürreális problémák bukkannak fel – pontosan ilyen volt az OpenAI híres „goblin-gate” esete is 2026 tavaszán...

MA 08:57

A fejlesztői MI-asszisztensek gyenge pontjai: mindenki a kulcsokra hajt

🔑 Valódi kódoló MI-k sorozatos hibái borzolják a kedélyeket – az elmúlt kilenc hónapban olyan fejlesztői eszközök, mint a Codex, Claude Code, Copilot vagy a Vertex AI, súlyos sebezhetőségeken keresztül váltak támadások célpontjaivá...

MA 08:43

A brit hálózatokat még mindig az elavult technológia kísérti

Érdemes megérteni, hogy az Egyesült Királyságban ezrek működtetnek olyan informatikai rendszereket, amelyek kritikus sebezhetőségeit már több mint tíz éve feltárták...

MA 08:36

Most kapaszkodj: az ügyvéd, aki a Jeopardy!-t is leuralja

Őrület, de tényleg megtörtént: Derek Kaufman, a TMZ saját ügyvédje, este ott virított a Jeopardy!..

MA 07:57

Az új videojáték-óriás felforgatja a megjelenési naptárakat

A nagysikerű Subnautica folytatása végre hivatalos megjelenési dátumot kapott: 2026. május 14-én érkezik a várva várt Subnautica 2...

MA 07:43

Az Alibaba új MI-ügynöke száműzi a felesleges eszközhasználatot

🤖 A mesterségesintelligencia-ügynökök egyik legnagyobb kihívása, hogy mikor használjanak külső eszközöket, és mikor bízzanak saját tudásukban...

MA 07:22

Az ókori római bilik leleplezik: ősi parazita gyötörte az embereket

Az ókori Római Birodalom határán, a mai Bulgária területén feltárt éjjeliedények falán és alján megtapadt vizelet- és székletmaradványok új részleteket tártak fel a rómaiak egészségi állapotáról: ezekből kerültek elő a világ legrégebbi, emberben talált Cryptosporidium parazitájának nyomai...

MA 07:15

Az X1 Neo robotok átvették a gyártósort: önmagukat építik

🤖 A humanoid háztartási robotok elterjedésére még várni kell, hiszen sem a Tesla Optimus, sem a Figure AI modelljei nem kaphatók, míg az 1X 7,1 millió forintos Neo Home robotja is még csak előrendelhető...

MA 07:01

Az okostelefonos dráma: mit rejteget Kirsten Storms titkos viszonya?

📱 Na most kapaszkodj, mert Kirsten Storms, az Általános kórház (General Hospital) ikonikus sztárja most a franklini rendőrség vizsgálatának középpontjában áll...

MA 06:57

Az ősi fegyverek rejtélyes világa: felismered mindet?

⚔ Érdemes megvizsgálni, hogy a múlt harci eszközei mennyi érdekességet rejtenek magukban...

MA 06:43

Az április felrázta a techrészvényeket, de a buli még rázós

🎉 A Nasdaq Composite idén áprilisban olyan szárnyalásba kezdett, amilyet a 2020-as Covid-kitörés óta nem láttunk: több mint 15%-os növekedést produkált, ami messze felülmúlta a várakozásokat...

MA 06:36

Az NYT Connections ravasz feladványa: csőr vagy autópolír?

A Connections e kiadása ismét próbára tette a szórejtvények szerelmeseit. A 1055...

MA 06:29

A filléres vasalapú akkumulátorok átírhatják az energiatárolás szabályait

A kínai tudósok áttörést értek el a vasalapú áramlásos akkumulátorok fejlesztésében, amelyek akár 16 éves élettartamot ígérnek teljesítményromlás nélkül...

MA 06:22

A Windows új Xbox-módja: tényleg csak a külcsín változott?

🎮 A várva várt Xbox-mód végre megérkezett Windows 11-re, de a felhasználóknak csalódniuk kell, ha komolyabb teljesítményjavulásban bíztak...

MA 06:05

Történelmi események a mai napon (Május 1.)

Április 30-án királyi hatalomváltások, birodalomalapítások és sorsfordító politikai döntések formálták a világot...

csütörtök 20:34

Az igazi PlayStation-élmény PC-n: megérkezett a trükkös adapter

🎮 Végre elérhetővé vált a teljes PS5-ös DualSense-élmény PC-n is, anélkül, hogy kábelekkel kellene bajlódni...

csütörtök 20:23

Az ellenőrzés szigorodik: a Polymarket Wall Street-szintre emeli szabályait

A Polymarket, a kriptoalapú jóslási piac radikális lépést tett: megállapodott a Chainalysis-szel, hogy valós időben figyeljék a kereskedéseket...

csütörtök 20:12

Az új előrejelzési piac: a Gemini berobban az amerikai piacra

Az amerikai kriptopiacon hatalmas lendületet vett a verseny, miután a Winklevoss ikrek kriptotőzsdéje, a Gemini megszerezte a szükséges szövetségi engedélyeket a származékos és predikciós piaci tevékenységekhez...

csütörtök 20:01

Az olajár háborús csúcson: ennyivel fizetünk többet a benzinért

🔥 A Brent nyersolaj hordónkénti ára csütörtökön elérte a 126 dollárt (kb...

csütörtök 19:56

Az MI olcsón indul, de gigászi számlákat hoz

💸 Az MI térnyerése miatt egyre több vállalat helyezi át a hangsúlyt a kísérleti modellek fejlesztéséről a tényleges, mindennapos MI-alkalmazásokra...

csütörtök 19:45

A fél internet veszélyben: kritikus cPanel-sebezhetőség

Az online világ egyik legfontosabb webszerver-kezelő eszközében olyan súlyos biztonsági hibát fedeztek fel, amely több tízmillió weboldalt fenyeget...

csütörtök 19:24

Az AdGuard VPN Macen végre akadálymentesen használható

A legújabb, 2.9-es AdGuard VPN-frissítés a Mac-felhasználók jelentős csoportjának hoz igazán hasznos újítást: az alkalmazás most már akadálymentesen használható látássérült felhasználók számára is...

csütörtök 19:12

Berobbant a stabilcoin-láz: bankok és fintech cégek a digitális pénzvonaton

💰 Mint minden valamirevaló krimi, ez is csendben kezdődött: az Anchorage Digital, az egyik legnagyobb amerikai digitális letétkezelő most az M0-ra (ejtsd: „em nullára”) bízta a stabilcoin-technológiájának fejlesztését...

csütörtök 19:03

Az olcsó gamer fejhallgatók új királya? Glorious GHS Eternal teszt

🎧 A gamer fejhallgató választásánál mindig felmerül a dilemma: vezetékes vagy vezeték nélküli legyen a következő fülesem?..