2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 12:45

Az apró bálna: titokzatos termés a dél-amerikai esőerdők lombkoronájában

🐋 Magasan a dél-amerikai esőerdők lombjai között a kutatók egy különös, új termeszt fedeztek fel, amely kísértetiesen egy miniatűr ámbráscetre hasonlít...

MA 12:35

Az űrsugárzás árnyékában: Miért most startol az Artemis II?

A NASA Artemis II küldetése történelmi pillanat: az űrhajósok először indulnak majd újra a Hold körüli pályára, kiemelt figyelmet fordítva arra, hogy a világűrből érkező sugárzás hogyan hat az emberi szervezetre...

MA 12:23

A MI-cég Mercor is bedőlt a LiteLLM-hez köthető ellátásilánc-támadásnak

Az MI-alapú toborzó startup, a Mercor megerősítette, hogy a LiteLLM-hez köthető ellátási láncbeli támadás áldozata lett – hasonlóan több ezer másik vállalkozáshoz...

MA 11:56

A mesterséges intelligencia felforgatja a játékfejlesztést – jönnek az új szabályok?

Miután az Embark Studios berobbant az Arc Raiders című játékkal, komoly viták robbantak ki a stúdió által alkalmazott mesterséges intelligencia (MI) miatt...

MA 11:46

Az új OnePlus Nord 6 meglepően könnyű és tűkarcsú

Lényeges, hogy az új OnePlus Nord 6-ot kézbe véve nem az fogad, amit egy hatalmas, 9 000 mAh-s akkumulátorral szerelt telefon alapján várnál: a készülék meglepően könnyű és vékony, abszolút nem nevezhető téglának...

MA 11:23

A kimúlt LFP-akkumulátor boncolása három felvonásban

⚜ Csak pár tucat töltési ciklus után kuka lett egy LFP-akkumulátor, még úgy is, hogy a csatlakozóin teljesen normális feszültség virított...

MA 11:12

Az emberiség visszatér a Holdhoz: nézd élőben az Artemis II indítását

🚀 Fontos kérdés, mikor és hogyan követhetjük élőben, ahogy négy űrhajós történelmi útra indul a Hold felé...

MA 11:01

Az amerikai űrhajósok újra a Hold felé tartanak

Több mint ötven év után újra amerikai asztronauták indultak a Hold felé: a NASA történelmi Artemis II missziója ragyogóan startolt el Cape Canaveralból, és lelkes nézők ezrei töltötték meg a kilövőközpont környékét...

MA 10:58

A Meta nagy dobása: meglesz a 3400 ezermilliárdos cégérték?

💸 Meta Platforms most olyan prémium juttatásokat kínál vezetőinek, amelyek hatalmas ösztönzőt adnak a vállalat értékének feltornászására...

MA 10:50

Az okosórákra is lecsap a kötelező 64 bites korszak

Fontos kérdés, hogy mikor teszik meg a gyártók a végső lépést a régóta emlegetett 64 bites átállás felé...

MA 10:37

Az Instagram és a YouTube percsatája átírhatja a közösségi média jövőjét

Egy Los Angeles-i esküdtszék ítélete precedens nélküli hullámokat keltett a közösségi média világában...

MA 10:22

Az új EvilTokens-készlet söpör végig: célkeresztben a Microsoft-fiókok

Az EvilTokens nevű új támadóeszközzel a kiberbűnözők könnyedén törhetnek be Microsoft-fiókokba...

MA 10:01

A daganatok titkos lakói hozhatják el az áttörést

🤖 Különösen említést érdemel, hogy a vastagbélrák – amely az Egyesült Királyságban a negyedik leggyakoribb daganat, és a daganatos halálozás második fő oka – meglepő módon egyedi mikrobiális „ujjlenyomattal” rendelkezik...

MA 09:42

Az első holdkörüli buli: visszatér a NASA, mindenki menne

Az Artemis II végre kilőtt, 53 év után először jutnak el újra emberek a Hold környékére – és nem is akármilyen legénységgel...

MA 09:36

Az Apple CarPlay mostantól ChatGPT-vel válaszol – mersz kérdezni?

🚗 Megérkezett a régóta várt iOS 26.4 frissítés, amely először teszi lehetővé harmadik féltől származó MI-chatbotok használatát az Apple CarPlay rendszerében...

MA 09:30

Az elveszett jégkorszak titkai: óriáslajhár és oroszlánméretű tatu Texas barlangjaiban

🧚 Ilyen esetről van szó, amikor két kutató egy texasi föld alatti patakban úszva véletlenül páratlan jégkorszaki fosszíliákra bukkantak...

MA 09:22

Az emberi színlátás titka: miért fókuszálunk másként a színekre?

👁 A szemünk képes milliónyi színt érzékelni, de egyszerre csupán egyetlen szín hullámhosszára tud élesen fókuszálni...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 4/2

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Dungeon Survival (iPhone/iPad)A játék minden alkalommal új, véletlenszerűen generált barlangszinteket kínál, így mindig más kaland vár...

MA 09:08

Az új Nomad Tracking Card Air: okos nyomkövetés a pénztárcádban

A Nomad bemutatta legújabb Tracking Card Air-jét, amely már támogatja a Google Eszközkeresés (Find My Device) hálózatát is, és egyetlen töltéssel akár hét hónapig működik...

MA 08:50

Az új T‑Mobile 5G mentőinternet: ki jár vele igazán jól?

📶 Tipikus eset, amikor egy szolgáltató módosít a szabályain, és ezzel egyszerre örömet szerez egyeseknek, míg másokat bosszant...

MA 08:44

Az első exkluzív holdkerülő túra: irány a Hold, Artemis II!

Megtörtént, amire minden űrrajongó régóta várt: négy bátor űrhajós elstartolt a floridai Kennedy Űrközpontból, és belekezdtek egy tíznapos, felsőkategóriás körútra a Hold körül...

MA 08:16

A kiszivárgott Claude Code forráskódja leleplezi az Anthropic titkos MI-terveit

Több mint félmillió sornyi forráskód szivárgott ki az Anthropic Claude Code MI-rendszeréből, amely eddig ismeretlen újításokat és rejtett funkciókat leplezett le...

MA 07:57

Az energiaforradalom félbemaradt: még mindig a fosszilisek diktálnak

Különösen igaz ez most, amikor a megújuló energia egyre nagyobb szeletet hasít ki a világ energiaellátásából, miközben a fosszilis energiahordozók továbbra is markánsan jelen vannak...

MA 07:51

Az öngyilkos üstökös: először láttak önmagát pusztító, pörgő égitestet

🚀 Érdemes megvizsgálni, léteznek-e az űr mélyén olyan égi jelenségek, amelyek látszólag áthágják a fizika eddig ismert törvényeit...

MA 07:43

A mesterséges intelligencia másodpercek alatt klónozza a nyílt forráskódot – rémálom vagy zsenialitás?

Két szoftveres kutató most különösen pimasz módon mutatta be, milyen gyorsan képes a modern mesterséges intelligencia egész nyílt forráskódú projekteket újjáalkotni...

MA 07:36

A United alkalmazás már mutatja a reptéri várakozást – ha nem késik

✈ Végre megérkezett az a menüpont, amire mindenki vágyott: a United mostantól mutatja a beszállás előtti biztonsági ellenőrzések várakozási idejét az appban – vagyis, ha épp eszméletlenül hosszú sorok kígyóznak, pontosan tudhatod, mennyit fogsz unatkozni multitasking közben a poggyászoddal...

MA 07:29

A TrueConf hibája miatt ezrével csaptak le videókonferenciákra

📺 A hackerek egy súlyos, eddig ismeretlen biztonsági rést kihasználva támadták meg a TrueConf videókonferencia-szervereket...

MA 07:22

Az Nvidia végre véget vet a shader-fordítási kínoknak – de csak félig

💻 Amikor a PC-d éppen unatkozik, az Nvidia szerint igazán kihasználhatná az időt arra, hogy előre lefordítsa a játékokhoz szükséges shadereket...

MA 07:17

A Claude Code szelleme visszatért: kísért az MI-kód

Egyetlen óvatlan pillanat elég volt, hogy a vállalati biztonsági vezetők rémálma valóra váljon...