2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

péntek 21:46

Az agyevő amőba tombol – Jön végre a fordulat?

💀 Forró, déli nyári napon egy nyolcéves fiút szállítanak az intenzív osztályra...

péntek 21:34

Az amerikai kormány soha nem látott tempóban vizsgálja a pszichedelikumok engedélyezését

Az Egyesült Államokban jelentősen felgyorsítják három, mentális betegségek kezelésére szánt pszichedelikus szer engedélyezési eljárását – köztük olyanokét is, amelyek a depresszió nehezen kezelhető formáira kínálnak potenciális megoldást...

péntek 21:23

Jön az orosz VPN-adó: vége a kiskapunak?

Oroszország egy újabb lépésként a VPN-használatot adóztatná meg, de a bevezetés május 1-i határideje könnyen csúszhat – a legnagyobb szolgáltatók szerint egyszerűen lehetetlen időben kiépíteni a rendszert...

péntek 21:12

Az új RIG FPS-headset: stúdióhangzás játék közben, borsos árcédulával.

Mostantól tényleg nem kell kompromisszumot kötni, ha játék közben mennyei hangzásra vágysz!..

péntek 21:02

Az MI-ügynökök már itt vannak – de ki meri bevetni őket?

🤖 Érdekes felvetés, hogy ma már a vállalatok 85 százaléka futtat MI-ügynökökre épülő pilotprojekteket, mégis mindössze 5 százalékuk bízik meg annyira ezekben a rendszerekben, hogy éles környezetben is bevesse őket...

péntek 20:56

Az első valódi kvantumtámadás a Bitcoinra: közeleg a veszély?

⚠️ Egy független kutató, Giancarlo Lelli, történelmet írt: nyilvánosan hozzáférhető kvantumszámítógépen sikerült feltörnie egy elliptikus görbéhez tartozó 15 bites kulcsot...

péntek 20:46

Az adatközponti gázerőművek egyes országoknál is szennyezőbbek lehetnek

⚡ A világ adatközpontjainak energiaszükséglete elképesztő tempóban nő, és a zöld energia helyett egyre több helyen fordulnak a kevésbé fenntartható megoldásokhoz: az Egyesült Államokban például most 11 óriási adatközpont-kampusz energiaellátására terveznek új gázerőműveket...

péntek 20:33

Az Aptos szárnyal, ünnepel a CoinDesk 20

Ez szép, de aztán jön a de: a digitális pénzekkel nem mindig sétakocsikázás a parkban, most viszont kifejezetten napos a kriptó-csillagzat...

péntek 20:23

Az izlandi vulkán, ahol leereszkedhetsz a magma gyomrába

Izlandon, Rejkavíktól alig néhány kilométerre található a Thríhnúkagígur, magyarul „Háromcsúcsú kráter”, amely egyedülálló látványosságot kínál: ez az egyetlen hely a Földön, ahol bárki leereszkedhet egy kiürült magmakamrába...

péntek 20:12

Az arany laskagomba inváziója veszélybe sodorja Florida erdeit

🍄 A figyelemfelkeltő, sárga kalapú arany laskagomba egyre népszerűbb a gasztronómiában és az otthoni gombatermesztésben...

péntek 20:03

A titokban fejlesztett Anthropic MI, amit túl veszélyesnek tartanak

Az Anthropic bemutatta Claude Mythos Preview nevű, minden eddiginél fejlettebb MI-modelljét, amelyet azonban nem engedett szabadjára...

péntek 19:56

Az Ethereum Alapítvány kasszája ismét dagad: a Bitmine óriásvásárlása

A Bitmine Immersion Technologies újabb óriási lépést tett a digitális eszközpiacon: 10 000 ethert (ETH) vásárol az Ethereum Foundationtől, összesen 8,6 milliárd forintért...

péntek 19:45

Az El Niño már májusban fenekestül felforgathatja az időjárást

🌧 A Föld szinte minden részén az átlagosnál melegebb nyárra készülhetünk: a legfrissebb előrejelzés szerint májusban visszatérhet az El Niño...

péntek 19:34

A láthatatlan veszély: mikroműanyagok a levegőben

🌫 A bolygó légkörében keringő mikroműanyagokról már sokat hallhattunk, de most kiderült, hogy a forrásukról eddig teljesen félrevezető kép élt bennünk...

péntek 19:24

Az apró hangszóró, ami lenyomja a nagyokat: Tribit Stormbox Micro 3 teszt

🔊 A Tribit Stormbox Micro 3 alig nagyobb egy szappantartónál, mégis lazán hozza azt a hangélményt, amit sok, jóval drágább és nagyobb Bluetooth-hangszóró sem tud...

péntek 19:12

Az áradások célkeresztjében: New York és New Orleans

Külön említést érdemel, hogy egy új kutatás nyolc amerikai keleti parti várost az extrém áradási károk legmagasabb kockázati zónájába sorol...

péntek 19:03

Az univerzum új robbanása: megszülethetett egy szuperkilonova?

Egy eddig ismeretlen, titokzatos kozmikus robbanás tartja lázban a csillagászokat: lehet, hogy egészen új csillagászati katasztrófát láttak, amely egyszerre egy neutroncsillag-ütközésből, azaz kilonovából, és egy szupernóva-robbanásból tevődik össze...

péntek 18:56

Az antarktiszi ősjégben lapul a klímarejtély megoldása?

🧊 Több millió éves antarktiszi jég vizsgálata soha nem látott részleteket tárt fel a Föld éghajlatának hosszú távú változásairól...

péntek 18:45

Az ötödik erő tényleg rejtőzik a Naprendszerben?

Az Univerzum titkait kutatva a tudomány gyakran szembesül azzal, hogy bolygók, csillagok és galaxisok nagy léptékű viselkedésére nincs mindenre kiterjedő magyarázat...

péntek 18:35

Az Apple új korhatár-ellenőrzése inkább árt, mint használ

🔴 Miközben az online tartalmakhoz egyre szigorúbb életkori ellenőrzések válnak általánossá, az Apple iOS 26...

péntek 18:23

A Terra-botrány fordulata: a Jane Street ellentámad

Az egyik legnagyobb Wall Street-i kereskedőcég, a Jane Street azt kérte az amerikai bíróságtól, utasítsa el a Terraform Labs csődvagyonának keresetét...

péntek 16:13

Az olcsó 8 GB-os kártyák utolérhetik a 16 GB-os csúcsokat?

📈 Megvizsgáltam, mennyire lehet tuningolással felzárkóztatni a középkategóriás, 8 GB memóriás Nvidia- és AMD-videokártyákat a drágább, 16 GB-os változatok teljesítményéhez...

péntek 16:02

Az EA nem csinálja, ezért egy indie nekiáll a Titanfall 3-nak

A Titanfall-sorozat minden idők egyik legkedveltebb FPS-élménye, amely érthetetlen módon a süllyesztőbe került, amikor az EA a Titanfall 2-t két nagy riválissal, a Battlefield 1-gyel és a Call of Duty: Infinite Warfare-rel egy időben dobta piacra...

péntek 15:57

Az indiánok rejtett őse: szenzációs felfedezés az ősi DNS-ben

Az utóbbi évek egyik legjelentősebb genetikai kutatásában sikerült majdnem kétszáz dél- és közép-amerikai őslakos ember genomját feltérképezni, egészen új képet adva Amerika benépesítésének rejtélyes múltjáról...

péntek 15:46

Az amerikaiak titkos gombaláza: depresszió, remény és varázsgombák

Megemlíthető továbbá, hogy az elmúlt években az úgynevezett varázsgombák, vagyis a pszilocibint tartalmazó gombák iránti érdeklődés az Egyesült Államokban minden eddiginél nagyobb lett...

péntek 15:34

Az MI-forradalmat is túléli az iPhone: az Apple aduásza marad

📱 Az utóbbi időben sokan vitatják, hogy vajon képes lesz-e az Apple megőrizni vezető szerepét a mobilpiacon az MI rohamos fejlődése mellett...

péntek 15:23

Az SSD-k drágulnak, elszálltak a processzorárak

Egyre biztosabbnak tűnik, hogy jóval mélyebben kell a pénztárcánkba nyúlni, ha új SSD-t vagy processzort szeretnénk venni...

péntek 15:12

A bitcoin és a dollár most döbbenetesen tükörképei egymásnak

Érdemes megvizsgálni, hogy a bitcoin és az amerikai dollár közötti kapcsolat sosem volt ennyire szélsőséges, mint mostanában...

péntek 15:03

A május égi csodái: felszerelések, tippek, kihagyhatatlan élmények

🌙 Májusban is számos látványosság vár az égbolton mindazokra, akik szeretnék felfedezni a csillagászat rejtelmeit...