2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 20:37

Az ország bajban: 5000 szerelőt vadászik a Ford, milliós bérrel

🚗 A Ford már több mint 5 000 autószerelői állást kínál, miközben akár évi 43 millió forintot is kereshet az, aki elvállalja a munkát – mégsem jelentkezik elég ember...

MA 20:01

Az XRP nagyot bukott: elesett a kulcsfontosságú támasz

📈 Az XRP árfolyama nagyot zuhant, 6,7 százalékkal esett vissza 1,88 dollárról egészen 1,75 dollárig (kb...

MA 19:37

Az óriásbolygó felhői sötét titkokat rejtenek

Fontos kérdés, hogy mi bújik meg a Jupiter sűrű, hatalmas felhői alatt...

MA 19:19

A legnagyobb bakik az Apple Watch fitneszappokban

💥 Az Apple Watch hosszú ideje szinte változatlan külsővel kíséri a felhasználókat, miközben a watchOS folyamatosan újít...

MA 19:02

Az internet fekete éve: kimaradások, áramszünetek és kábelszakadások 2025-ben

⚠ 2025-ben az internet számtalan kihívással nézett szembe világszerte. A Cloudflare éves összefoglalója szerint több mint 180 jelentős leállás történt, amelyek minden kontinens szolgáltatásait érintették, rámutatva arra, mennyire sérülékeny maradt a globális hálózat – akár fejlett, akár fejlődő országról volt szó...

MA 18:56

Az adataink védelméért: 5 MI-mentes alternatíva a Google-alkalmazások helyett

Egyre többen próbálnak szabadulni a Google ökoszisztémájától, főleg adatvédelmi aggályok miatt...

MA 18:37

Az elektromos tér felülírja a szabályokat: savvá változik a víz

⚡ Elektrokémiai eszközök belsejében az erős elektromos terek olyan mértékben változtatják meg a vízmolekulák viselkedését, amely alapjaiban új megközelítést igényel...

MA 18:19

A SpaceX egymillió műholdat küldene az MI szolgálatába

🚀 Elon Musk cége, a SpaceX engedélyt kért egymillió műhold Föld körüli pályára állítására, hogy kiszolgálja a mesterséges intelligencia számításigényét...

MA 17:56

Az ideje, hogy az európai cégek leváljanak az amerikai felhőkről

Fontos kérdés, hogy bízhatnak-e továbbra is az európai vállalatok a tengerentúli, amerikai felhőszolgáltatókban – főként, amikor a digitális szuverenitás kérdése egyre hangsúlyosabbá válik...

MA 17:38

Az Apple Watch már a magas vérnyomásra is riaszt – így kapcsolod be

🚶 Az Apple Watch egyre komolyabb szerepet játszik az egészségfigyelésben, hiszen az egyszerű fitneszfunkciókon túl már orvosilag is fontos adatokat kínál – például gyors értesítéseket a vérnyomásodat érintő hosszú távú változásokról...

MA 17:19

Az NYSE nonstopra vált: vége a részvénytokenizációs gondoknak?

A tokenizált részvények piaca látványos növekedést mutat, és most új lendületet kaphat azzal, hogy a New York-i Értéktőzsde (New York Stock Exchange, NYSE) és a Nasdaq is tervezi az éjjel-nappali, a hét minden napján zajló kereskedést...

MA 17:02

A titkos barlang rejtélye: miért gyűjtöttek koponyákat a neandervölgyiek?

🕵 Több mint 43 ezer évvel ezelőtt a neandervölgyiek évszázadokon át szarvas- és más agancsos állatok koponyáit gyűjtötték egy spanyolországi barlangban, amelyről most kiderült, hogy jóval összetettebb kulturális szokásokat tükröz, mint korábban gondolták...

MA 16:56

Az okos appkereső, amelyből a Play Áruház is tanulhatna

🔍 A Google Play Áruház keresője évek óta kihívást jelent a felhasználóknak...

MA 16:39

Az AirTagnél is ügyesebbek ezek az androidos Bluetooth-nyomkövetők

🔍 Az Apple nemrég bemutatta az AirTag második generációját, fejlettebb hatótávval, hangosabb csengővel, nagyobb biztonsággal, de ugyanazzal a formával, mint korábban...

MA 16:19

Az OnlyFans gazdát cserélhet: jöhet új tulaj?

Az OnlyFans, a világszerte ismert felnőtt tartalomszolgáltató platform fontolgatja, hogy eladja a cég többségi tulajdonrészét az Architect Capital nevű befektetési cégnek...

MA 15:37

Az OpenClaw MI-asszisztensei közösségi hálót építenek maguknak

🤝 Érdemes megjegyezni, hogy a népszerű személyi MI-asszisztens, amely korábban Clawdbot néven futott, ismét új nevet kapott...

MA 15:19

Az új Instax nyomtató drága, de tűéles fotókat ad

📷 A Fujifilm Instax Mini Link+ az Instax nyomtatók legújabb darabja, amely sokak örömére végre jelentős képi javulást hozott magával...

MA 15:01

Az MI sötét oldala: technofasizmus és eugenika szövetsége

A Sundance Filmfesztiválon bemutatott Szellem a gépben (Ghost in the Machine) dokumentumfilm kemény állítást fogalmaz meg: a mesterséges intelligencia terjedése és maga a Szilícium-völgy eugenikai (fajnemesítési) gyökerekből táplálkozik...

MA 14:36

Az Apple újra csúcson: rekordot döntenek az iPhone-eladások

A legfrissebb jelentés szerint az Apple történetének eddigi legjobb negyedévét produkálta: a cég összbevétele csaknem 1437 milliárd forintot (143,76 milliárd USD) ért el...

MA 14:19

A vezeték nélküli töltés tényleg kinyírja a telefonod akkumulátorát?

⚠ A vezeték nélküli töltés ma már a mindennapok kényelmes része: elég letenni a telefont a töltőpadra, és már kezdődik is a töltés...

MA 14:01

Az ISS-nél feszültség: új legénység startol, veszélyben a biztonság?

Az amerikai űrügynökség, a NASA rendkívüli hangsúlyt fektet az űrhajósok biztonságára, miután a múlt hónapban egy négyfős legénységet kellett idő előtt visszahozni a Nemzetközi Űrállomásról egy ismeretlen eredetű egészségügyi probléma miatt...

MA 13:55

Az Ivanti januári rémálma: két kritikus rés az EPMM-ben

😱 Az új év alig kezdődött el, máris két súlyos, kihasznált nulladik napi sérülékenységet kellett befoltoznia az Ivantinak az Endpoint Manager Mobile (EPMM) termékében...

MA 13:37

Az egész világ gyászolja Catherine O’Harát

💔 A hollywoodi közösség és rajongók világszerte megrendülten fogadták a hírt, hogy Catherine O’Hara, a komédia egyik legnagyobb alakja 71 évesen elhunyt Los Angeles-i otthonában egy rövid betegség következtében...

MA 13:19

Az igazi Halley-rejtély: egy szerzetes megelőzte az angol csillagászt

🔬 A híres Halley-üstököst általában Edmond Halley brit csillagász nevéhez kötik, aki 1705-ben elsőként írta le az égitest pályáját...

MA 13:02

Felforrósodik a gyorsjelentés-szezon: Amazon, Google, AMD és a mellőzött Disney

A részvénypiac lejtmenete után sok múlik a következő hét óriáscégein. Bár az S&P 500 három napig gyengült, ezek a visszafogott zárások még jót is tehetnek – főleg, ha az előttünk álló gyorsjelentési hullám nagy nevei jól teljesítenek...

MA 12:55

Az okos pénzkezelés: hozd ki a legtöbbet a forintjaidból

💰 A magyar bankok takarékbetéteinek átlagos kamata jelenleg mindössze 0,39%, ami elsőre kevésnek tűnik...

MA 12:37

Az ezüst leverte a kriptót: váratlan pofon a piacon

🪙 Az elmúlt 24 órában az ezüstre épülő tokenizált határidős ügyletek okozták a legnagyobb likvidálási hullámot a kriptovilágban...

MA 12:19

Az első villámtöltésű brit akkumulátoros vonat rajtol

A brit vasút történetében új korszak kezdődik: London nyugati részén elindul az első olyan vonat, amely kizárólag akkumulátorral üzemel, és rekordgyorsasággal, mindössze három és fél perc alatt feltölthető...

MA 12:01

Az új, színes E Ink táblagép leválthatja a laptopodat?

A Bigme B10 bemutatásával újabb lépést tett a színes E Ink technológia a hagyományos tabletek irányába...