2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 14:34

Az áttörés: elkészült a csikló ideghálózatának első részletes térképe

Erre utal többek között az, hogy tudósok először alkottak teljes, nagy felbontású idegtérképet a csiklóról, amely az emberi test egyik legkevésbé kutatott szerve...

MA 14:22

Az űrhajósok reggelije: tortillák, kávé és jó sok csípős szósz

🚀 A NASA Artemis II küldetése során négy asztronauta 10 napos utazásra indul a Hold körül – és egy meglepően gazdag menü is elkíséri őket...

MA 14:01

A befektetési óriás Schwab belép a bitcoin- és etherkereskedelembe

A Charles Schwab, amely közel 12 billió dollár (kb. 4 260 000 milliárd forint) ügyfélvagyont kezel, 2026 első felében bevezeti a valós idejű bitcoin- és etherkereskedést...

MA 13:34

Az Apple TV és az Arcade áprilisi újdonságai: lesz itt minden!

🎬 Áprilisban ismét frissül az Apple TV és az Apple Arcade kínálata, számos izgalmas új sorozattal és játékkal, amelyek minden korosztály számára tartogatnak meglepetéseket...

MA 13:12

A lángtenger rázúdul Dél-Kaliforniára: menekülés az orkánban

Riverside környékén dühöng a Springs Fire tűzvész, amelyet a pénteki, rendkívül erős szél csak tovább fokozott...

MA 12:56

A Nothing Phone 4a Pro: stílus és teljesítmény, verhetetlen ár

📱 A Nothing Phone 4a Pro végre elérhető hivatalosan az Egyesült Államokban, és már első ránézésre is igazi különcnek számít...

MA 12:45

Az Anthropic kitiltja a külső ügynököket: búcsú a korlátlan Claude-tól

Az Anthropic komoly lépést tett: április 4-től radikálisan megváltoztatja a Claude MI-előfizetések felhasználásának feltételeit...

MA 12:33

Az emberiség új határa: az Artemis II 160 ezer kilométeren túl

Felrobbant az izgalom a NASA háza táján, amikor az Artemis II asztronautái végre elhagyták a Föld körüli pályát!..

MA 12:02

A pénz sem véd: az ingatlanpiac a szupergazdagokat is sújtja

💰 Az elmúlt években sorra kerülnek napvilágra azok a hírek, amelyek szerint a hírességek és milliárdosok jelentős veszteségekkel, elsőre hihetetlennek tűnő áron kénytelenek megválni luxusingatlanaiktól...

MA 11:45

Az OpenAI betör a médiapiacra: hollywoodi talkshow-kat vásárolna

Az OpenAI az utóbbi időben igyekezett leszűkíteni a fókuszát, a mellékvágányok helyett ismét a vállalati MI fejlesztésére összpontosítva...

MA 11:33

Úton a Hold felé: startolt az Artemis II legénysége

🚀 Négy űrhajós, Reid Wiseman, Victor Glover, Jeremy Hansen és Christina Koch vágott neki a NASA Artemis II küldetésének, amely új fejezetet nyit az emberes űrutazás történetében...

MA 11:13

Az elfeledett dán zseni és a Föld belsejének titkai

🚀 Kezdetben kevesen ismerték Inge Lehmann nevét Dánián kívül, pedig épp neki köszönhetjük a Föld belső szerkezetéről alkotott új képünket...

MA 11:02

Az MI nem veszi el a legtöbb állást – vagy túl jelentéktelen?

🤔 A mesterséges általános intelligencia (AGI) kapcsán legtöbben attól tartanak, hogy a robotok minden munkát elvesznek tőlünk, és csak a legkreatívabb, legemberibb munkakörök maradnak meg...

MA 10:50

Az MI-vel tényleg bárkiből lehet játékfejlesztő?

🧠 Egy új MI-s startup, a Tesana szerint hamarosan akár 100 millió ember saját videojátékot készíthet néhány mondat begépelésével...

MA 10:42

Az MI-roham élén: a Microsoft 3700 milliárdot önt Japánba

Tízmilliárd dolláros, vagyis mintegy 3700 milliárd forintos gigaberuházást jelentett be a Microsoft Japánban, amellyel jelentősen bővíti a helyi MI-infrastruktúrát és felhőszolgáltatásokat...

MA 10:36

Az egyetlen szuri mindent visz? Jön a szupervakcina-korszak.

A járványok szinte mindig meglepetésszerűen robbannak be, ilyenkor derül ki igazán, mennyire számítanak a védőoltások...

MA 10:30

A Nyugatot már térdre kényszeríti az aszály – a nyár még előttünk

Az USA nyugati részén szó szerint elfogyott a víz, miközben még csak a tavasz közepén járunk...

MA 10:21

Az olasz bíróság lecsapott: a Netflixnek vissza kell fizetnie árdrágításért.

Évek óta húzza le a Netflix az olasz nézőket, most viszont nagyot koppant: a római bíróság úgy döntött, hogy a korábbi, jogtalan áremeléseket vissza kell fizetnie az előfizetőknek...

MA 10:08

Az őskori vietnámi gyerekfogak őrzik a szifilisz titkos eredetét?

👀 Több ezer éves vietnámi leletek alapjaiban rengethetik meg, amit a szifilisz eredetéről gondoltunk...

MA 10:01

A kiégés arcai: más a vezetőé, más a pályakezdőé

Hajlamosak vagyunk azt hinni, hogy a kiégés csak annyi, mint a túlóra, a túl kevés határhúzás vagy a legendás „maradj erős”...

MA 09:50

Az adataid veszélyben? Új Zendesk-botrány a Hims and Hers-nél

📝 Érdemes megvizsgálni, mit jelent egyre több online egészségügyi vállalat számára az adatbiztonság: már néhány nap is elegendő volt ahhoz, hogy ismeretlen hackerek a Hims & Hers Health ügyfélszolgálati rendszeréből több millió támogatási jegyet ellopjanak...

MA 09:36

A Netflix MI-vel írja át a filmek befejezését

Mi történik, ha a rendező egy autós ütközésre épülő finálé forgatása után rájön, mégis életben hagyná a főszereplőt?..

MA 09:29

A Microsoft új MI-varázslója: átverés vagy áttörés?

🤔 A Microsoft Copilot nevű mesterséges intelligenciáját óriási marketingkampány kíséri, a cég pedig lelkesen mutatja be, hogyan segíthet a szoftver üzleti stratégiaalkotásban, a munkahelyi hatékonyság növelésében, kreatív feladatokban és még sok minden másban...

MA 09:22

A pici Dell asztali gép száz wattból turbózza az MI-t

🚀 A Dell legújabb miniszámítógépe, a Pro 5 Micro, teljes értékű asztali teljesítményt hoz miniméretben: elég kicsi ahhoz, hogy elférjen egy monitor mögött, miközben nem kell kompromisszumot kötni a számítási kapacitásban...

MA 09:15

Kilenc perc, és viszik a bitcoinodat az új kvantumszámítógépek?

Erre utal többek között az, hogy a Google Quantum AI csapata szerint egy jövőbeli kvantumszámítógép mindössze kilenc perc alatt képes lenne egy bitcoin nyilvános kulcsából kinyerni a privát kulcsot...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/4

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     VSep (iPhone/iPad)A VSep egy innovatív alkalmazás, amely mesterséges intelligenciával választja szét az éneksávot és a zenét, miközben a felhasználó adatainak védelmét szem előtt tartja, hiszen minden művelet a készüléken belül történik...

MA 09:07

Az Apple végre kedvez az iOS 18-hoz ragaszkodóknak

Az Apple újabb biztonsági frissítést adott ki azok számára, akik eddig nem akarták vagy nem tudták telepíteni az iOS 26-ot, és még mindig a régebbi iOS 18 rendszert használják...

MA 09:01

Az indiánok ősi dobókockái meglepő titkot rejtenek

🎲 Az amerikai kontinens első lakói már az utolsó jégkorszak idején is ügyesen használtak dobókockához hasonló eszközöket különféle játékokban, amelyekkel a véletlen események eredményeit emelték be mindennapi szórakozásukba...

MA 08:57

Az első ember titka: valóban ember volt a Homo habilis?

Az emberi evolúció egyik legnagyobb talánya, hogy mikor és hogyan alakult ki a Homo nemzetség...