2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 18:56

A Microsoft szerint a Windows 11 frissítések most furcsák, de rendben vannak

Az utóbbi hónapokban a Windows 11 felhasználók többsége meglepődve tapasztalhatta, hogy a szokásos havi frissítések nem egy, hanem akár két-három újraindítást is igényelnek...

MA 18:45

A Coinbase a Centrifuge-re támaszkodik, részesedést is szerez

A Coinbase stratégiai partnerséget kötött a Centrifuge céggel, amely ezentúl a kriptoplatform alapértelmezett tokenizációs infrastruktúrája lesz...

MA 18:34

A kriptó igazi értéke a szabályozáson kívül van – állítja Arthur Hayes

A Bitcoin valódi ereje abban rejlik, hogy teljesen kívül áll a pénzügyi szabályozásokon...

MA 18:24

A búcsú és az új tulajdonosok: Letterman nekimegy a CBS-nek

👋 A cikk azt vizsgálja, milyen hatással van a televíziós iparra A Late Show megszűnése, és hogyan éli meg mindezt David Letterman, a legendás műsorvezető...

MA 17:13

Az új Spotify-trükkök: zseniális ötletek és totális mellényúlások

Az elmúlt hetekben számos fejlesztéssel rukkolt elő a Spotify, de a platform láthatóan még mindig nem lassít, hiszen hamarosan két új funkcióval bővülhet a kínálat...

MA 17:01

A Bitcoin fittyet hány a bizonytalanságokra: újra felfelé tör

💰 Fontos kérdés, hogy mennyire viseli meg a Bitcoin árfolyamát a világgazdasági bizonytalanság és az amerikai jegybanki kamatpolitika váratlan fordulata...

MA 16:56

Az új Resident Evilben tényleg újjászületnek a vérfagyasztó zombik?

Az új Resident Evil: Requiem egyik legnagyobb vonzereje Leon Kennedy, ám a zombik is szinte ugyanilyen erővel vonzzák a rajongókat...

MA 16:45

Az egyszemű óriás Matt Damonnal: a legek Odüsszeiája

Hadd ordítsam már bele a levegőbe, hogy Matt Damon ezúttal tényleg mindent belead!..

MA 16:23

Az Airwrap túl drága? Íme a legjobb feleáras alternatívák

💰 A hajformázás világát teljesen felforgatta az Airwrap megjelenése: a forró hengerek helyett irányított légárammal formázta a hajat, így kímélve azt...

MA 16:12

Az Andreessen Horowitz 800 milliárddal száll be a kriptóba

💸 Az Andreessen Horowitz (a16z) 2,2 milliárd dolláros, vagyis közel 800 milliárd forintos új kriptoalapot indított, hogy a következő tíz évben minden szakaszban segítse a blokklánc-startupokat...

MA 16:02

A mesterséges intelligencia tényleg elveszi a fiatalok munkáját?

Az MIT kutatója, Andrew McAfee szerint súlyos hiba lenne a kezdő munkaköröket teljesen automatizálni MI-vel...

MA 15:56

Az MI felforgatja a kriptovilágot: leépítésbe kezd a Coinbase

Érdekes fejlemény, hogy a kriptovaluta-ipar egyik legnagyobb szereplője jelentős létszámleépítéssel reagál a piaci kihívásokra és a mesterséges intelligencia térnyerésére...

MA 15:45

Az OpenAI majdnem Freeman lett – Muskot a Half‑Life ihlette

Az OpenAI egyik korai, kevéssé ismert fejezete most újabb részletekkel bővült: Elon Musk komolyan fontolgatta, hogy a vállalat neve Freeman legyen, utalva a Felezési idő (Half-Life) videojáték tudós főhősére...

MA 15:12

Az Nvidia Kína nélkül: stratégiai mesterhúzás vagy óriási öngól?

Az Nvidia teljesen elveszítette jelenlétét a kínai MI-chip­piacon, miután az amerikai exportkorlátozások életbe léptek...

MA 15:01

Az angol óriásbank újabb milliárdos dobása a kriptófronton

💰 Érdekes felvetés, hogy a hagyományos pénzügyi óriások egyre magabiztosabban lépnek be a kriptopiacra...

MA 14:56

Az év krimiszenzációja: összeérhetnek a Paradise-sorozatok?

Többek között évtizedek óta nem látott crossover-őrületre készülnek a BBC sikerszériái, és a Beyond Paradise negyedik évadának szereplői már teljes erőbedobással támogatják az ötletet...

MA 14:45

A Bullish az Equiniti felvásárlásával új pénzügyi infrastruktúrát épít

💰 Jól illusztrálja a trendet, hogy a nagyobb kriptoplatformok már nem csupán a digitális pénzek cseréjére koncentrálnak, hanem egyre inkább a hagyományos tőzsdei háttérinfrastruktúra teljes körű átalakítására is...

MA 14:24

Az eltűnt kanadai Emoji-tó nyomában: sosem látott katasztrófa

💧 Kanada egyik leglátványosabb tava, a Quebec tartományban található Lac Rouge, különös módon, néhány nap leforgása alatt teljesen eltűnt...

MA 13:56

Az Apple Wallet tényleg hamarosan kiváltja a plasztikkártyákat?

💳 A közelgő iOS-frissítések számos hasznos újítást hoznak az iPhone-felhasználók mindennapjaiba. Az iOS 26...

MA 13:34

A munkahelyeket felforgató MI: csak a gyorsak maradnak talpon

A Microsoft friss kutatása szerint az MI használata robbanásszerűen terjed a munkahelyeken, de a vállalatok többsége még nem igazán tudja, hogyan vezesse be hatékonyan az újdonságokat...

MA 13:23

Az Aave visszavághat: megmenthető a befagyasztott kriptó?

💰 A kriptovilágban ismét forrnak az indulatok: az egyik legnagyobb decentralizált kölcsönző platform, az Aave az amerikai szövetségi bírósághoz fordult, hogy feloldják az Arbitrumon befagyasztott, mintegy 26 800 ethert (71 millió dollár, azaz közel 26 milliárd forint) érintő zárolást...

MA 13:12

Az adatlopás célkeresztjében a Trellix forráskódja

🔒 Újabb jelentős kibertámadás érte a Trellixet: ismeretlen támadók hozzáfértek a cég forráskódjának egy részéhez...

MA 12:34

Az internet rejtett urai: a MI-botok térnyerése

Megfigyelhető, hogy a digitális ökoszisztéma látványosan átalakul a MI-botok térnyerése miatt...

MA 12:23

A Sony új fejhallgatója debütált: jön az AirPods Max 2 riválisa?

A Sony hamarosan piacra dobhatja szuperprémium fejhallgatóját, amelyet most először láthattunk a nyilvánosság előtt...

MA 11:35

A BLUETTI FridgePower: Hűtőmentő hős vagy félúton elvérző csoda?

🧊 Az elmúlt évben bekövetkezett ibériai áramszünet sok spanyol és portugál háztartásban világossá tette, hogy a vészhelyzeti áramellátás már nemcsak a vidéki túlélők vagy vállalkozások kiváltsága...

MA 11:23

Az észak-koreai hackerek ellen hadba vonul a kriptopiac

🛡 Az elmúlt hónapban a kriptopiacot megrázó, 104 milliárd forintos Drift elleni hackertámadás új korszakot nyitott a digitális lopások történetében: már nem a programhibák, hanem a hosszú hónapokon át tartó, jól szervezett emberi manipulációk jelentik a fő veszélyforrást...

MA 10:58

A nagy párbaj: MacBook Pro M4 vagy Mac Studio M2?

🛡 A MacBook Pro és a Mac Studio két igen ütős gép, amelyek még a legújabb modellek megjelenése után is komoly versenyzők maradtak...

MA 10:43

Az infláció már a Bitcoin malmára hajtja a vizet?

💰 Egy lényeges szempont, hogy a Bitcoin újabban nem a megszokott forgatókönyv szerint mozog az inflációs jelek láttán...

MA 10:37

A tényleg hordozható erőmű: DJI Power 1000 Mini teszt

Kompakt méretének köszönhetően a DJI Power 1000 Mini gyökeresen új szintre emeli a mobil áramellátás fogalmát...