2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 14:45

Az alvilág ura: Mictlantecuhtli 500 éves, hátborzongató maszkja

Ámulatba ejtő, koponyára emlékeztető fa maszk idézi meg az azték alvilág hatalmas urát, Mictlantecuhtlit...

MA 14:34

Az Insta360 visszaperel: kirobban a szabadalmi háború a DJI ellen

🔫 Az akciókamerák világában újabb fordulóhoz érkezett a versengés: az Insta360 saját jogi lépésekkel vág vissza a DJI ellen...

MA 14:23

A színpadról a csillagok közé: Erini Lambrides a NASA-nál

🌌 Különösen igaz ez, hogy ha a gyerekkori álmainkat felnőttként is követjük, gyakran teljesen váratlan ösvényekre sodródhatunk...

MA 13:56

Az MI koronáját nem Amerika viseli – a világ így látja

Kína lassan megelőzi az Egyesült Államokat a mesterséges intelligencia fejlesztésében, és ezt világszerte egyre többen is így látják...

MA 13:33

A dolgozók annyit pesztrálják az MI-t, mint amennyit dolgoznak

A dolgozók kezéből egyre többet vesz át a mesterséges intelligencia, mégis rengeteg új, eddig ismeretlen feladat keletkezik...

MA 13:12

A lábunk alatt húzódik a Földet összekötő gombasztráda

Érdemes megérteni, hogy a lábunk alatt egy szinte felfoghatatlanul kiterjedt, láthatatlan hálózat húzódik: ez a gombafonalakból álló rendszer 110 billiárd kilométer hosszan behálózza a talajainkat...

MA 13:01

Az ARK Invest félmilliárdnál is többet költött SpaceX-részvényekre az IPO-n

Pénteken, a SpaceX történelmi tőzsdei bevezetésekor az ARK Invest közel 3,3 millió részvényt vásárolt, így több mint 180 milliárd forintos (500 millió USD) pozíciót épített ki egyetlen nap alatt...

MA 12:34

Az igazság órája: felelős a Google a hibás MI-összefoglalókért

A techóriások eddig messzire kerülték, hogy felelősséget vállaljanak azért, ha termékeik vagy szolgáltatásaik hibásan működnek, vagy félrevezető információkat adnak...

MA 12:01

A cégednek nem ad hoc MI-trükkök kellenek – íme, miért

A legtöbb vállalat manapság egyszerűen csak rá akarja húzni a mesterséges intelligenciát egy olyan működési modellre, amelyet még a múlt század stabil, kiszámítható világára szabtak...

MA 11:56

Az MI és a blokklánc Ázsiában olvad össze, megelőzve a Nyugatot

🧾 Ami kezdetben csak kriptovaluta-boomként indult, mára egy sokkal szélesebb technológiai összefonódás jeleit mutatja...

MA 11:02

Az űripar királynője, papírfecnivel a cipőjében

Senki sem várta volna, hogy egy amerikai nő, akit gyerekként untatott az Apollo–11 holdraszállása, egyszer egy több mint 650 milliárd forintot érő vállalat egyik arca lesz – és története még ma is elképesztően inspiráló...

MA 10:56

Az XPENG önvezető forradalmának kulcsa az MI

🚗 A kínai XPENG új fejezetet nyit az önvezető járművek világában. A cég szerint a legújabb fejlesztésű VLA 2...

MA 10:45

Az új Windows-frissítés hat appot turbóz, a Photos vízjelez Copilot-képeken, alapból kikapcsolva

Erre utal többek között az, hogy a Microsoft hat alapvető Windows-alkalmazást fejlesztett tovább egy átfogó frissítéssel: a Photos, Paint, Calculator, Clock, Media Player, valamint a Voice Recorder újdonságokat kapott...

MA 10:37

A 2026-os vb-utazóknak fontos: legális a VPN az USA-ban, Kanadában, Mexikóban?

A három országon átívelő 2026-os labdarúgó-világbajnokságra több millió szurkoló készül, akik az USA, Kanada és Mexikó városai között utaznak majd...

MA 10:28

Az oxfordi fizikusok új szintre emelték Schrödinger macskáját

Az Oxfordi Egyetem kutatói egy teljesen újfajta kvantumszuperpozíciót hoztak létre, amely a híres Schrödinger-macska gondolatkísérletnél is érdekesebb eredményeket mutat...

MA 10:19

Az Anthropic leállította a Fable 5 és a Mythos 5 hozzáférését

🚫 Hétvégén váratlan fordulat történt: hirtelen megszűnt a hozzáférés a Fable 5 és a Mythos 5 MI-modellekhez...

MA 09:55

A tudósok áttörték a CO2-gátat, megháromszorozzák a metanolhozamot

A szén-dioxid újrahasznosítása metanollá hosszú ideje a vegyipar egyik nagy ígérete, mégis makacs akadályokba ütközött a folyamat tökéletesítése során...

MA 09:45

A krémesebb, finomabb fehérjeturmixok titka végre napvilágra került

Az új tudományos fejlesztéseknek köszönhetően végre olyan fehérjeturmixok kerülhetnek az asztalodra, amelyek nemcsak egészségesek, hanem ízre és állagra is jóval kellemesebbek...

MA 09:37

A mesterséges intelligencia csak kód – és nem prompttal okosítható

A Java-fejlesztők körében népszerű jqwik egy hasznos tesztelési eszköz, amely lehetővé teszi a Java-alkalmazások alapos és automatikus vizsgálatát...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 6/15

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Inkflow Plus Visual Notebook (iPhone/iPad)Az Inkflow egy vizuális gondolkodást támogató alkalmazás...

MA 08:46

Az eddigi legdrágább Super Mario-játék: 1,1 milliárdot fizettek érte

Érdemes megvizsgálni, miért fizet valaki 3 millió dollárt (nagyjából 1,1 milliárd forintot) egyetlen videojátékért: egy ritka, bontatlan Super Mario testvérek (Super Mario Bros.)..

MA 08:36

A prediabétesz visszafordítása felére csökkentheti a halálos szívkockázatot

A legújabb kutatás szerint a prediabéteszből – vagyis a cukorbetegséget megelőző állapotból – visszaforduló embereknél jelentősen csökken a szív- és érrendszeri halálozás esélye...

MA 08:28

Az Igazság Napja bemutatója: Spielberg szerint jártak már itt az idegenek

Steven Spielberg új filmjével, Az Igazság Napjával (Disclosure Day) nemcsak a mozinézőket, de az idegen életben hívők táborát is felvillanyozza...

MA 08:18

A mézelő méhek saját légi sávokat követnek hihetetlen pontossággal

🐝 A méhek lenyűgöző repülési pontossága sokkal fejlettebb, mint ahogyan azt eddig gondolták...

MA 07:55

Az FBI megbénítja a milliónyi URL-lel működő, MI-alapú adathalász-hálózatot

🕵 Egy összehangolt akcióban az FBI, a Google és a Black Lotus Labs közösen számolták fel a hatalmas kínai Outsider Enterprise adathalász-hálózatot, amely több ezer hamis weboldallal próbált hitelkártyaadatokat és jelszavakat megszerezni...

MA 07:46

A zár, amit a tenyered nyit: SwitchBot Vision Pro

🔐 Képzeld el, hogy úgy nyitod ki a bejárati ajtót, mintha A Jedi visszatérben (Return of the Jedi) használnád az Erőt – elég, ha felemeled a tenyered...

MA 07:37

Megnyílt az Anbernic hivatalos cserealkatrész-boltja kézikonzolokhoz

🔧 Az Anbernic elindított egy új webáruházat, ahol mindenféle pótalkatrész beszerezhető a kézikonzoljaihoz...

MA 07:28

A NASA X-59-ese csúcssebességet és -magasságot ért el, jönnek a csendes próbák

A NASA X-59 kísérleti repülőgépe új mérföldkövet ért el: nemrég sikeresen teljesített egy tesztrepülést, amelyen szuperszonikus sebességgel, nagy magasságban repült...

MA 07:18

A pleisztocén zombijai: az ősi földimókusok dögöt falatoztak

💀 Érdemes megvizsgálni, hogy a régmúlt földimókusai milyen meglepő szokásokkal rendelkeztek, amelyek fényt derítenek izgalmas ökológiai kapcsolatokra a jégkorszak idejéből...