2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 11:23

A 11 nyerő projektor, hogy nagyban nézd a vébét

A 2026-os labdarúgó-világbajnokság közeleg – június 11-én indulnak a csoportmeccsek, és július 19-én jön a döntő...

MA 11:12

A Vanillaware huszonhárom év után végre PC-re költözik

🖥 Például a japán Vanillaware stúdió 23 éve tartó PC-kerülése hamarosan véget ér: a Muramasa: Visszatérő pengék (Revenant Blades) érkezik a Steamen is, ami nemcsak a rajongók régóta dédelgetett álma, hanem egy korszak vége is...

MA 11:01

Az Apple új architektúrája: helyi MI-ügynökök memóriakorlát nélkül

🚀 Az Apple legújabb fejlesztésével eddig sosem látott ugrást hozott a helyi MI-modellek világában...

MA 10:55

Az átok megtört: a Hotel Barcelona Steamen többnyire pozitívra váltott

A Hotel Barcelona, egy oldalnézetes akció-platformer, végre maga mögött hagyta a középszerű „Vegyes” minősítést a Steamen, és most „Többnyire pozitív” minősítéssel büszkélkedhet...

MA 10:46

A Hyperliquiden beszakadt a SpaceX pre-IPO árfolyama: mínusz 27% három hét alatt

🚀 Jelentős visszaesést mutat a SpaceX-hez köthető SPCX-szerződés a Hyperliquid platformon: három hét alatt 27%-ot esett, pedig még mindig magasabban forog, mint a cég rögzített, 135 dolláros (kb...

MA 10:38

Az Anthropic a tömegekhez viszi a Mythost a Claude Fable 5-tel

🦄 Az Anthropic jelentősen átrendezi a mesterségesintelligencia-piacot, miután most először széles körben elérhetővé tette új, kiemelkedően fejlett modelljét, a Claude Fable 5-öt...

MA 10:28

Az olajpiac lenyugodott, a bitcoin viszont tovább forrong a zűrzavarban

Felmerül a kérdés, meddig tart a kriptovaluták viharos időszaka, miközben az olajpiac meglepő gyorsasággal visszanyerte nyugalmát...

MA 10:19

A két szuper-Föld felforgatta az Uránusz és a Neptunusz holdjait, majd eltűnt?

💫 Napjainkban már nyolc bolygót ismerünk a Naprendszerben, de a legújabb kutatások szerint több százmillió évvel ezelőtt még akár hat óriásbolygó is keringhetett a Nap körül...

MA 10:01

Az MI felpörgeti a kiberbiztonságot: a BT az első brit a Glasswingben

A BT, az Egyesült Királyság vezető távközlési cége elsőként hivatalosan bejelentette, hogy csatlakozik az Anthropic nevű technológiai vállalat Project Glasswing nevű kezdeményezéséhez...

MA 09:46

Az amerikai Bitcoin ETF-ek ma sem nagyobbak, mint Trump győzelmekor

Az Egyesült Államokban jegyzett spot bitcoin ETF-ek kezelt vagyona jelenleg nagyjából azon a szinten áll, mint Donald Trump 2024...

MA 09:37

A kétezer éves skót rítus: agyeltávolítás, karcsontból készült eszközök

Többek között egy ritka temetkezési szokásra derült fény Észak-Skócia egyik távoli részén, ahol egy több mint 2000 évvel ezelőtt eltemetett nő sírja különös részleteket rejtett: agyát a halála után eltávolították, karcsontjaiból pedig késeket és egyéb eszközöket formáltak...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 6/10

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Risp: Budget & Savings (iPhone/iPad)A Risp egy pénzügyi alkalmazás, amely segít a pénzkezelésben bevált költségvetési stratégiákkal, megtakarítási célok kijelölésével és rövid, könnyen érthető pénzügyi ismeretekkel...

MA 09:10

A Mortal Shell 2 nyílt bétáját már 250 ezren töltötték le hétvégén

🦁 A Mortal Shell 2 idén debütál, és már most elképesztő az érdeklődés iránta: a hétvégi nyílt bétaverziót több mint 250 ezren töltötték le...

MA 09:01

Az egyszerű trükk, amitől éles marad az elméd kemoterápia alatt

💡 A kemoterápiát kapó rákbetegek gyakran kénytelenek szembenézni egy kellemetlen mellékhatással: a „kemó-agy” néven ismert emlékezet- és figyelemzavarral, ami akár a betegek 80%-át is érinti...

MA 08:46

Az életveszélyes hamis telefontöltők ellepték az online piactereket, áramütést okozhatnak, felrobbanhatnak

⚠ A legnépszerűbb internetes áruházakban, köztük a magyar vásárlók számára is ismert Amazonon, B&Q-n és eBay-en rengeteg hamis vagy silány minőségű telefontöltő kapható, amelyek szó szerint halálos veszélyt jelenthetnek...

MA 08:36

A bélben rejtőzik az alvási apnoé szívbetegség-kiváltója

💉 Az obstruktív alvási apnoé világszerte emberek millióinak életét nehezíti meg. Ez a gyakori rendellenesség éjszakánként többször is leállítja a légzést néhány másodpercre, ezzel csökkentve a szervezet oxigénszintjét és növelve a szén-dioxid-szintet...

MA 08:27

A szex mindent megváltoztatott: megrekedt az első állatok evolúciója

A Föld első állatai megjelenésükkel messze nem indítottak el robbanásszerű fejlődést – meglepően sokáig pangott az élővilág változatossága...

MA 08:19

Az Apple új Sirije: nem csak asszisztens, hanem vállalati alkalmazásréteg

Idén a WWDC 2026 kiemelt szenzációja, hogy az Apple teljesen új alapokra helyezi a Sirit, így most már jóval többről van szó, mint egy digitális asszisztensről...

MA 08:02

A PCOS valódi arca: hormonvihar a női szervezetben

💪 A PCOS (policisztás ovárium szindróma) a nők egyik leggyakoribb hormonális zavara, amely az anyagcserére, a bőrre, a hajra és a mentális egészségre is jelentős hatást gyakorol...

MA 07:55

A Madison Square Gardenért szórják a milliókat: Taylor Swifték esküvője

💍 Taylor Swift és Travis Kelce igazi nagyágyús eseményre készülnek: az esküvőjük helyszíne nem más, mint a legendás Madison Square Garden, amelyet legalább három napra béreltek ki...

MA 07:46

A remake-trilógia fináléja: mindent a Final Fantasy VII Revelationről

🎉 A játékvilág lélegzet-visszafojtva várja, hogyan zárul a legendás történet, amely egy egész generációt inspirált...

MA 07:36

A tea meghosszabbíthatja az életed – ha jól iszod

☕ A tea évszázadok óta közkedvelt ital világszerte, ám nemcsak a hangulatra, hanem a testre is hat...

MA 07:28

A csalás-mítosz ledől: a diákok jóra használják az MI-t

Az oktatás digitális forradalma alapjaiban formálja át a fiatalok tanulási szokásait...

MA 07:18

Az ultrafeldolgozott ételek lopják a figyelmedet – akkor is, ha egészségesen eszel

🤔 Új kutatás szerint a mindennapokban gyakran fogyasztott, ultrafeldolgozott ételek jelentősen rontják a figyelmet és a szellemi teljesítményt, még akkor is, ha valaki egyébként kifejezetten egészségesen táplálkozik...

MA 07:10

Az első kétmagos kvantumgép: kínai áttörés, tényleg stabilabb és hatékonyabb?

⚙ Egy kínai vállalat bemutatta a Hanyuan-2 nevű forradalmi kvantumszámítógépet, amelyet a világ első kétmagos kvantumszámítógépeként emlegetnek...

MA 07:01

Az 5 ezermilliárd dolláros kriptopiac kulcsa: a tokenizált részvények

A tokenizált részvények és ETF-ek új korszakot hozhatnak a kriptopénzek és a hagyományos pénzügyi piacok találkozásában...

MA 06:37

Az Apple is gyárt hamis képeket – ennek tényleg örülünk?

Eddig az Apple szinte szégyenlősen nyúlt a képszerkesztő szoftverek mesterséges intelligenciájához, miközben a konkurencia évek óta villogott a generatív MI-képességekkel...

MA 06:28

Az Ebola-járványban három új vakcina kap zöld utat – mikor érkeznek?

Közép-Afrika újabb Ebola-járvánnyal küzd, amely ezúttal a Bundibugyo-vírustörzs miatt robbant ki...

MA 06:19

Az ötujjú Donald kacsa botrányt kavar a Kingdom Heartsban

A frissen bejelentett Szívek királysága-gyűjtemény (Kingdom Hearts Collection) (1–3) hivatalos plakátján kisebb botrány kerekedett: Donald kacsának feltűnően öt ujja van az egyik kezén...