2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 15:34

A Bitcoin 63 ezer dollár alá zuhan, a Strategy 100 millióért vásárol

📈 Felmerül a kérdés, hogy mennyire stabil a kriptopiac, amikor a legnagyobb szereplők folyamatosan adnak-vesznek, miközben az árfolyamok zuhanásba kezdenek...

MA 15:23

A Spotify élő koncertekkel támad, de letaszíthatja a YouTube-ot?

A Spotify újabb lendületet vett videós tartalmainak bővítésében: hamarosan élő koncertközvetítésekkel is próbálkozhat, hogy még közelebb hozza az előadókat rajongóikhoz...

MA 15:12

A téridő: a valóság szívében lüktető rejtély

Kevés tudományos felfedezés forgatta fel annyira a világról alkotott elképzeléseinket, mint a téridő fogalma...

MA 15:01

A bitcoinpiac szerint fordul a trend: túl a kriptokrach mélypontján

📈 A kriptopiac viharos napjai után úgy tűnik, egy kulcsfontosságú mutató szerint a legrosszabb szakasz már mögöttünk lehet...

MA 14:45

Az arany nanostruktúrák átírják a hő törvényeit – a tudósok előnyére

Hőjelenségekkel nap mint nap találkozunk: egy csésze kávé kihűl, a laptop felmelegszik munka közben, vagy a napsütés felforrósítja a Föld felszínét...

MA 14:34

A Tip Toe brutális ötödik része után egy hét szünet kellett

Lényeges, hogy időnként mindannyian úgy érezhetjük, mintha egyetlen nap alatt összeomlana körülöttünk a világ...

MA 14:23

Az eddig ismert legrégibb római zuhanypapucs a Hadrianus-falnál

Ilyen volt például, amikor a régészek a Vindolanda erődben, Hadrianus fala mentén egy igazi szenzációt tártak fel: a világ legrégebbi zuhanypapucsát...

MA 14:02

Az olcsóbb, kiszivárgott Sony OLED két váratlan előnnyel csábít

A Sony honlapján kiszivárgott új Bravia OLED TV alaposan felkavarta a kedélyeket, hiszen kategóriájához képest két meglepő tulajdonságot is kínál, amelyek könnyen elcsábíthatják azokat, akik eddig a drágább Bravia 8 II mellett döntöttek volna...

MA 13:45

Az innováció a britek vérében van – Starmer MI-áttörést jósol

🧠 Az Egyesült Királyság sorsfordító ponthoz érkezett, amikor a mesterséges intelligencia mindennapivá válik az országban...

MA 13:12

Az MI-megtérülési szakadék: Miért torpan meg a vállalati intelligencia az infrastruktúrán?

Ez a jelenség jól illusztrálható azzal, hogy a vállalati szféra rég nem látott lelkesedéssel veti bele magát az MI-fejlesztésekbe, de a gyakorlati eredmények elmaradnak a várakozásoktól...

MA 12:56

A CME-n már a bitcoin volatilitására fogadnak, két cég is

💲 Fontos kérdés, hogy a kriptopiac kiszámíthatatlan ármozgásából hogyan lehet profitálni. Többek között emiatt jelentett be egy újdonságot a világ egyik legnagyobb tőzsdéje, a CME, amely már lehetővé teszi, hogy a kereskedők ne a bitcoin árfolyamára, hanem annak volatilitására, vagyis az ármozgás mértékére fogadjanak...

MA 12:45

Az arany 200 napos átlag alá esett: jöhet a bitcoin-rali?

Érdekes fejlemény, hogy az arany ára ismét lejjebb csúszott: több mint 20%-kal esett az árfolyam a januári rekordhoz, vagyis a kilónkénti 180 millió forinthoz képest, sőt, most először október óta az arany ára az utolsó 200 kereskedési nap átlagára, azaz a 200 napos mozgóátlag alá zuhant...

MA 12:34

A hónap LEGO-szenzációi: 8 új készlet, köztük a valaha legnagyobb

🎁 A Lego idén nyáron minden eddiginél izgalmasabb újdonságokat vezet be, amelyek nemcsak a gyűjtők, hanem a családok érdeklődését is felkeltik...

MA 12:23

Vásárolj legendás, Marvel- és DC-hősök ihlette órákat

Érdemes megvizsgálni, hogy napjainkban az igazi rajongók már nemcsak hagyományos relikviákat gyűjtenek, hanem különleges, a Marvel és DC univerzum hőseit idéző karórákat is...

MA 10:46

Az újabb bitcoin-hullámvasút: pánik, profit és váratlan fordulatok

Szokatlanul mozgalmasan indult a hét a kriptovaluták piacán. A bitcoin árfolyama előbb 63 700 dollárig (23,46 millió forint) emelkedett, majd hirtelen esett vissza 62 900 dollár közelébe...

MA 10:37

Két mod már meg is szelídíti a Gothic Remake zárnyitását

Érdemes megérteni, hogy az új Gothic Remake-ben a fejlődés minden pillanata valódi küzdelem...

MA 10:28

Az XRP 1,10 dollár fölött visszapattan a négyhavi mélypontról

📈 Az XRP nagy eladási hullámot követően ismét a figyelem középpontjába került – az árfolyam már négyhavi mélypontról pattant vissza, de a lendület egyelőre hiányzik...

MA 10:19

Az Acer PD243Y E: Kétpaneles, 24 colos, meglepően hordozható monitor

💻 Amikor a hordozható monitorok kerülnek szóba, általában kisebb, könnyedén szállítható eszközök jutnak eszünkbe...

MA 09:46

A bitcoin 63 700-ig tör, április óta a legtöbb likvidálás

💸 A hétvégén, az elmúlt heti, mintegy 14%-os zuhanás után, a bitcoin árfolyama váratlanul ismét erőre kapott, 63 700 dollárig (kb...

MA 09:37

A 2026-os FIFA-vb Kanadában: így nézheted minden meccset

⚽ A hazai rendezésű világbajnokság előtt a kanadai válogatott történelmi lehetőség kapujában áll...

MA 09:27

Az adócsomag, amely átírhatja a kriptovilág játékszabályait

💰 Bár a legtöbb kriptobefektető számára a tavaszi adóbevallás elsőre távolinak tűnhet, most érdemes figyelni, mert az amerikai Képviselőház legfontosabb adóügyi bizottsága, a Ways and Means Committee gőzerővel dolgozik a kriptopénzekre vonatkozó jogszabályokon...

MA 09:19

A beépített 4G-modemes SSD, amit távolról is megsemmisíthetsz – James Bondnak tervezve

👓 A Computex 2026 egyik legnagyobb meglepetése egy olyan külső SSD volt, amely szó szerint képes saját magát távolról is elpusztítani...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 6/8

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Between Dates Calendar Math (iPhone/iPad)A Between Days egy letisztult, felhasználóbarát alkalmazás, mellyel könnyedén meghatározható, hány nap választ el két megadott dátumot...

MA 09:10

A 7,8-as rengés Kablalan közelében rázta meg a Fülöp-szigeteket

Egy 7,8-as erősségű földrengés rázta meg a Fülöp-szigetek déli részét, Mindanao szigetétől délre, 26 kilométerre Kablanantól...

MA 09:02

A NYT Strands megoldásai és tippjei – június 8., #827

📌 Ha még a reggeli kávé sem indítja be az agytekervényeidet, a legjobb, ha valami igazán izgalmas játékba veted magad...

MA 08:37

Steven Tyler a tárgyalás előtt újra vallatná tini bántalmazási vádlóját

Steven Tyler, az Aerosmith frontembere újabb meghallgatást kér a kiskorúval szembeni szexuális visszaéléssel vádoló nő, Julia Holcomb és a férje meghallgatására, még a nyári pereskedés előtt...

MA 08:28

A Bitcoin 63 ezer alá csúszott: iráni–izraeli csapások, koreai zuhanás

💸 Újabb hullámvasútra került a Bitcoin árfolyama, ahogy a közel-keleti háborús feszültségek ismét megrázták a piacokat...

MA 08:01

Hivatalosan is lezárult a 2022-es DaBaby-féle bowlingverekedés ügye

🏃 Megemlíthető, hogy DaBaby híres-hírhedt bowlingpályás verekedésének jogi következményei végre lezárultak: hivatalosan is megszületett a megállapodás a 2022-es összetűzéssel kapcsolatos perben...

MA 07:55

Az ördögi Quordle: tippek és megoldások, hogy ma ne bukj el

Különösen igaz ez, ha minden alkalommal egyre nehezebb feladatokkal szembesülsz: a mai Quordle fejtörőhöz három különböző magánhangzóra van szükség, de egyetlen válaszban sincs ismétlődő betű...