Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 08:30

Az álláshirdetések szellemei: így vernek át minket

👻 Az álláskeresők rémálma: egyre több hamis hirdetés Álláskeresés közben nemcsak a versennyel, hanem egyre gyakrabban szellemhirdetésekkel is szembe kell nézni, vagyis olyan pozíciókkal, amelyek valójában már nem léteznek, vagy soha nem is töltötték be...

MA 08:22

Az éhség titkát egy apró fehérje őrzi

🔬 Ami először apróságnak tűnt, mára az elhízás mögött rejlő egyik kulcstényezővé nőtte ki magát: egy eddig rejtve maradt fehérje segíthet megmagyarázni, miért kontrollálják egyesek könnyebben az étvágyukat, míg mások folyamatosan küzdenek a sóvárgással...

MA 08:15

A rejtélyes molekula, amely átírhatja a Down-szindrómás agyműködést

Amerikai kutatók új eredményei szerint egy hiányzó molekula pótlása átalakíthatja a Down-szindrómás agy kapcsolatait – ráadásul még felnőttkorban is...

MA 08:09

A JWST leleplezte az univerzum titokzatos fekete lyukát

💫 A James Webb űrteleszkóp váratlan felfedezést tett: egy ősi galaxison belül talált egy rejtett szupermasszív fekete lyukat, amely átírhatja mindazt, amit a világegyetem legrejtélyesebb jelenségeiről gondoltunk...

MA 08:02

A békák bélbaktériumai, amelyek leszámolnak a daganatokkal

A japán JAIST kutatói meghökkentő felfedezést tettek: kétéltűek és hüllők bélrendszeréből származó baktériumok, egyetlen adagban beadva, teljesen eltüntetik az egerek vastagbélrákját...

MA 07:57

Az OpenAI megnyitotta a ChatGPT-alkalmazásboltot

💻 Az OpenAI újabb lépést tett afelé, hogy a ChatGPT egy mindenre képes alkalmazássá váljon, amely közvetlenül csatlakozik például az Apple Musichoz vagy a DoorDash-hez...

MA 07:43

A legújabb Cisco-hiba miatt kínai hackerek átvették az irányítást

⚠ A Cisco súlyos biztonsági rést fedezett fel Secure Email Gateway (SEG) és Secure Email and Web Manager (SEWM) eszközeiben, amelyeket jelenleg is kihasználnak ismeretlen támadók...

MA 07:36

Az eltűnt Mars-szonda nyomában: a NASA kétségbeesett mentőakciója

🚨 A NASA hetek óta próbál kapcsolatot teremteni a MAVEN Mars-szondával, amely december elején teljesen elnémult...

MA 07:29

Az első citrom alakú bolygó – és ez még csak a kezdet

🍋 Egyedülálló, citrom alakú exobolygót fedeztek fel csillagászok a James Webb-űrteleszkóppal, amely egy sűrű, gyorsan forgó, halott csillag körül kering...

MA 07:25

Az udvar királya: így teljesített a Gozney Dome pizzakemence

👑 Gigászi méret és luxus dizájn A Gozney Dome (Gen 2) és a még nagyobb Dome XL (Gen 2) minden eddiginél komolyabb, professzionális szintű pizzakemence, amely az udvari kemencék világában igazi státuszszimbólum...

MA 07:15

A nagy e-learning összefogás: a Coursera felvásárolja az Udemyt

🎓 A Coursera és az Udemy jelentős egyesülést jelentett be, amelynek értéke közel 900 milliárd forint, vagyis mintegy 2,5 milliárd dollár...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 12/18

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Smoothie-3D (iPhone/iPad)A Smoothie-3D egy felhasználóbarát alkalmazás, amely lehetővé teszi, hogy egyetlen kép körvonalának megadásával saját, egyedi 3D-modelleket hozzunk létre...

MA 07:08

Az AWS-t titokban kriptobányászatra használják a hackerek

Az Amazon AWS GuardDuty szolgáltatása figyelmeztetett: új, folyamatos kriptobányász-kampány használja ki feltört felhasználói fiókokat az Elastic Compute Cloud (EC2) és az Elastic Container Service (ECS) felhőszervereken...

MA 07:02

A világegyetem új különce: bizarr alakú exobolygót talált a NASA

Űrkutatók egy szokatlan, citrom alakú exobolygót fedeztek fel a NASA James Webb-űrteleszkópjával...

MA 06:57

Az első kínai EUV-gép: nyugati technológia kínai gyártásban?

Kínai kutatók egy Shenzhenben fejlesztett új EUV-litográfiai berendezéssel álltak elő, amely akár alapja lehet a jövő mesterségesintelligencia-rendszereit kiszolgáló chipek gyártásának...

MA 06:51

Az Instacart árait már a hatóságok vizsgálják

Az Instacart, az élelmiszerszállítási piac egyik vezető szereplője, komoly nyomás alá került, miután kiderült: az amerikai Szövetségi Kereskedelmi Bizottság (FTC) vizsgálatot indított a cég MI-alapú árazási rendszerével kapcsolatban...

MA 06:44

Az NVIDIA ConnectX-8 C8240 a hálózati kártyák új királya?

Az NVIDIA ConnectX-8 C8240 kétségkívül a SuperNIC kategóriájába tartozik. Ez a hálózati kártya két QSFP112 porttal, valamint PCIe Gen6-os switch-csel rendelkezik, és akár 800 Gbps kétirányú átviteli sebességre képes egy PCIe Gen5-ös szerverben is...

MA 06:37

Az új Bluesky barátkereső nem bombáz meghívókkal

👥 A Bluesky, amely az X és a Threads riválisaként jelent meg a közösségi médiában, most egy olyan barátkereső funkciót vezet be, amelynek középpontjában a felhasználói adatvédelem áll...

MA 06:30

A Radiant nagy dobása: 300 millió dollár a minireaktorára

🚀 Egyre vadabb pénzeső zúdul a nukleáris technológiára: a Radiant Nuclear most 110 milliárd forintos (kb...