2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 19:35

A veszélyes CallPhantom-csalás 28 Google Play-alkalmazáson terjedt, milliókat érintve

Több mint hétmillió alkalommal töltöttek le olyan androidos alkalmazásokat a Google Play Áruházból, amelyek hamisan ígértek hozzáférést telefonhívásokhoz, SMS-ekhez és WhatsApp-üzenetekhez...

MA 19:23

A Sony hezitál: RAM‑válság árnyékolja be a PS6 rajtját

💲 A játékostársadalmat aggasztja, mi lesz a következő generációs konzolok ára és megjelenési ideje...

MA 19:12

Az Evercold majdnem felrúgta a Final Fantasy XIV 12 éves hagyományát

🌨 Érdekes felvetés, hogy a Final Fantasy 14 bővítményeinek nevei mindig összetett szavakból állnak, amire már több mint egy évtizede következetesen ügyel a Square Enix...

MA 19:03

A hantavírus réme: utasokat figyelnek, Spanyolország irányított evakuálásra készül

😷 Tipikus eset, amikor egy békésnek ígérkező tengeri utazás egy csapásra világjárvány-veszéllyé változik...

MA 18:56

Az XRP 1,40 dollár felé tart, de csökken az áttörés esélye

📈 Az XRP árfolyama közelít az 1,40 dolláros, vagyis bő 510 forintos szinthez, miközben az utóbbi időben a volatilitás látványosan visszaesett, a piac pedig egyre kisebb sávban kereskedik...

MA 18:45

A Canvas-botrány: Rockstar-hackerek 280 millió iskolai felhasználó adatait lopták el

Érdemes megvizsgálni, hogy a világ egyik legnépszerűbb oktatási platformja, a Canvas, történetének talán legnagyobb adatlopásával szembesült...

MA 18:34

A NEAR Protocol ralija vezeti feljebb a kriptopiacot

📈 Az elmúlt napokban pozitív fordulat következett be a kriptodevizák piacán, mivel a vezető szereplők jelentős emelkedést értek el...

MA 18:23

A világ jelszavainak fele percek alatt feltörhető

A legtöbb jelszó alig jelent akadályt a hackereknek. Egy friss kutatás szerint világszerte majdnem minden második jelszót kevesebb mint egy perc alatt fel lehet törni...

MA 17:23

A Revolutnál 2 centet mutatott a Bitcoin – kijelzési hiba

Fontos kérdés, mennyire megbízhatóak a kriptovaluta-alkalmazások valós piaci körülmények között. Ilyen eset például, amikor egy elterjedt pénzügyi appban egy hirtelen árfolyamesés villan fel a semmiből – legalábbis néhány felhasználó képernyőjén...

MA 17:01

A Windows örök: 2026-ban is még a régi Win32 hajtja

💻 Rengetegen bosszankodnak Windows 11 alatt a régi, elavult párbeszédablakok láttán. Ezek a menük igencsak árulkodnak arról, hogy a rendszer mélyén sokkal idősebb kódrétegek lapulnak, mint gondolnánk...

MA 16:34

Az olajdrágulás bedöntötte a bitcoin árfolyamát

💸 Érdemes megvizsgálni, hogy a bitcoin újabb zuhanását ismét a geopolitikai feszültségek okozták: az Egyesült Államok iráni légicsapásai az olaj árát átmenetileg hordónként 100 dollár (kb...

MA 16:01

Az Instructure-hack súlyosbodik: feltörték a Canvas iskolai portálokat

A ShinyHunters hackercsoport újabb szintre emelte a támadását, amikor átmenetileg manipulálta csaknem 330 oktatási intézmény bejelentkezési oldalait...

MA 15:58

A Honor MagicPad 4 csendben mindent kijavított: a legjobb középkategóriás Android tablet

🚀 Honor ismét nagyot alkotott a MagicPad 4-gyel, amely nem csupán az előző modell minden hibáját javította ki, hanem új szintre is emelte a középkategóriás Android tabletek mezőnyét...

MA 15:45

Az Xbox a Project Helixről, következő konzoljáról még idén többet árul el

Az Xbox vezetője, Jason Ronald bejelentette, hogy még idén további részleteket árulnak el a Project Helix néven futó, következő generációs konzolról...

MA 15:35

Az EU sarokba szorítja a Google-t: mi lesz a keresési adatainkkal?

🔍 Egy komoly konfliktus bontakozik ki a Google és az Európai Unió között a keresési adatok felett, amely alapjaiban forgathatja fel azt, ahogyan mindennap böngészünk a neten...

MA 15:23

A tét nagy: az Amazon MI-ügynökei valódi pénzt mozgatnak

Felmerül a kérdés, mikor jön el az idő, amikor nem te intézed az online fizetéseket, hanem egy MI dönt, és a háttérben hajt végre minden tranzakciót...

MA 15:13

Amerikai munkaerőpiaci lassulás felverheti a bitcoint — ha a béremelkedés nem hűt

📈 Érdemes megvizsgálni, hogy a pénteken érkező nem mezőgazdasági foglalkoztatottsági jelentés hogyan rázhatja meg a kriptopiacot...

MA 15:01

A stabilcoin-kártyás költés évente megduplázódik – Rain vezetője szerint

💳 Az elmúlt évben robbanásszerűen nőtt a stabilcoin-alapú bankkártyák forgalma, a kártyás, stabilcoinnal történő vásárlások értéke több mint 105%-kal ugrott meg...

MA 14:56

A hétköznapi hashajtó meglepően óvja a veséket

A krónikus vesebetegség világszerte százmilliókat érint, és gyakori oka a veseelégtelenségnek...

MA 14:46

Az SK hynixnél teltház: példátlan ajánlatözön memóriachipekért

A memóriachipek piaca teljesen felbolydult: az SK hynixnél már hatalmas sorok állnak szerződésekért, de a gyártó képtelen kielégíteni a keresletet...

MA 14:34

Az AWS leállása miatt órákra befagyott a Coinbase

💸 Az egyik legnagyobb kriptotőzsde, a Coinbase órákra elérhetetlenné vált egy komoly felhőszolgáltatói probléma miatt...

MA 14:23

Az 500 éves arany foghíd: Skócia legkorábbi fogpótlása, hamis foggal

Aberdeen középkori karmelita templomának feltárása során felfedeztek egy férfi alsó állkapcsát, amelyen egy 500 éves aranyhuzalból készült foghíd nyomait találták meg...

MA 14:02

Az élő kvantumhálózati teszt New Yorkban két akadályt tör át

💻 A kutatók most először hoztak létre élő kvantumhálózatot New Yorkban, amely valós körülmények között is működőképes lehet, és gyakorlatilag feltörhetetlen internethez vezethet...

MA 13:56

A Bitcoin 80 ezer dollár alá csúszott: falnak ment a ‘Trump-rali’

💸 Érdemes megvizsgálni, miért csúszott vissza a Bitcoin ára 80 000 dollár (kb...

MA 13:46

A mangrovék évente 3200 milliárd forintot spórolnak a nitrogénszennyezés megkötésével

🌲 A mangroveerdők valóságos ökológiai szupersztárok, amelyek lenyűgöző munkát végeznek az óceánpartokon...

MA 13:34

Az S&P 500 callopciós őrület tetőzik – mit üzen ez a bitcoinnak?

A Wall Streeten igazi tőzsdeláz tapasztalható: elképesztő, 2 600 milliárd dollárnyi (kb...

MA 13:23

A Nintendo még idén megemeli a Switch 2 árát

A Nintendo Switch 2 ára idén jelentősen emelkedik: az Egyesült Államokban szeptember 1-től közel 18 900 forinttal (kb...

MA 13:12

A digitális személyazonosságod ára: meglepően olcsó a feketepiacon

🔐 Mit ér valójában a digitális személyazonosságod? Egy új online eszköz most pontosan megmutatja, mennyit fizetnének érte a bűnözők a sötét weben...

MA 12:56

Az áttörés az ínygyulladás ellen: a jó baktériumok megkímélve

😃 A szájban állandóan több száz baktériumfaj él együtt, folyamatos kommunikációban egymással...