2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 21:45

Az Etna felfedi titkát: egyedülálló vulkántípus született

Érdemes megvizsgálni, mi teszi az Etnát a földkerekség egyik legkülönlegesebb vulkánjává – amit az is jelez, hogy a friss kutatások gyökeresen új magyarázattal szolgálnak a szicíliai tűzhányó szokatlan viselkedésére...

MA 21:35

Az MI legújabb áttörése fenekestül felforgatja a kriptovilág biztonságát

🚀 Erre utal többek között az, hogy az Anthropic által bemutatott Mythos MI-modell fenekestül felforgatja a kriptoszektor eddigi biztonsági stratégiáit...

MA 21:01

Az új Visa-trükk: milliárdokat hajt át stabilcoinokon

💳 A Visa hatalmas lépést tett a digitális pénzügyi forradalomban: már kilenc különböző blokkláncot támogat stabilcoinos elszámolásra...

MA 20:46

A bitcoin hidat ver az MI és a kriptó közé

A tőzsdék világában most ritkán látott különbségek alakultak ki: egyre többen keresik a jövőt az MI-részvényekben, miközben a bitcoin sosem látott mértékben alulértékelt...

MA 20:23

Az új kínai szuperszámítógép letarolja a mezőnyt

Kína következő szuperszámítógépe minden eddiginél erősebb processzorteljesítményre épít: már a fejlesztés első ütemében 100 Huawei Kunpeng szervert kötnek össze, összesen 12 800 maggal...

MA 20:02

Az ősi germán földeken kiderült, hogyan éltek Róma bukása után

🏝 Például több mint ezeréves temetők rejtélyei segítenek megfejteni, hogyan boldogultak az emberek a Római Birodalom bukása után Dél-Németország határvidékén...

MA 19:56

Az új MacBook Neo bővíthető RAM-mal jön, de jut-e belőle?

💻 A MacBook Neo jelenlegi 8 GB memóriája régóta vitatott kompromisszum, de most felröppentek a hírek egy komolyabb frissítésről...

MA 19:34

A gyümölcslegyek végzete: filléres nyári megoldás az asztali ventilátor

🌀 Felmerül a kérdés, hogyan védekezhetünk a bosszantó gyümölcslegyek ellen a nyári estéken, amikor a friss gyümölcs, a nyitott ablakok és ajtók valóságos meghívót jelentenek ezeknek az apró kártevőknek...

MA 19:23

Az élet eredete: jeges elmélet kavar vihart

Érdemes megvizsgálni, miként játszhatott szerepet a fagyás és olvadás végtelen váltakozása a földi élet hajnalán...

MA 19:13

Az MI kilenc másodperc alatt törölte a cég teljes adatbázisát

Fontos kérdés, hogy mennyire bízhatunk rá egy MI-ügynökre komoly vállalati feladatokat – főleg, ha az üzlet sorsa múlik rajta...

MA 18:45

A Hyperliquid új húzása: kriptófogadások fillérekért?

💸 Kriptós körökben most mindenki a Hyperliquid friss húzásáról beszél. Lényegében közzétették az úgynevezett outcome tokenekre vonatkozó díjszabást – ezek azok az eszközök, amelyekkel különféle események kimenetelére lehet fogadni a platformon...

MA 18:34

Az intézményi tőke rakétapályára állíthatja a Bitcoint

🚀 Érdekes felvetés, hogy a Bitcoin még a 28 millió forintos ár alatt is egyre komolyabb szerepet kap a befektetők portfóliójában...

MA 18:23

Az új Motorola Razr modellek lepipálják a Samsungot

Május második felében tarol a Motorola, hiszen öt új eszközt jelentett be: három klasszikus, kagylóhéjas, hajlítható telefont, egy könyvszerűen hajlítható készüléket és egy vadonatúj fülhallgatót...

MA 17:56

A 12 GB-os Nvidia RTX 5070 mobil titokban debütált

🔑 Észrevétlenül, minden felhajtás nélkül dobta piacra az Nvidia a GeForce RTX 5070 Laptop GPU 12 GB-os konfigurációját egy egyszerű illesztőprogram-módosítás formájában...

MA 17:45

A bitcoinpiac lefagyott: közeleg a válság?

A bitcoin piaca most kifejezetten nyugodtnak tűnik, miközben a napi kereskedési volumen 8 milliárd dollár (kb...

MA 17:34

A szűk elit tarol a Polymarketen: a nyereség fele náluk

💸 Fontos kérdés, hogy kik uralják valójában a politikai fogadási piacokat, és milyen esélyei vannak az átlagos kereskedőknek...

MA 17:23

Az Arc Turbine: az új rém felkutatása és likvidálása az Arc Raidersben

🚧 Az Arc Raiders legfrissebb Riven Tide frissítésében felbukkanó Arc Turbine egészen más ligát képvisel az ellenségek között – az igazi izzasztó hajrákat pont akkorra időzíti, amikor már az idő szorít, és a menekülőútvonalad sincs mindig garantálva...

MA 16:56

A láthatatlan hálózatok így veszik célba az otthoni routereket

🔒 A globális kiberbiztonsági hivatalok egyre nagyobb figyelmet fordítanak az otthoni routerekre, amelyek a legújabb célpontjai lettek a Kína által támogatott, úgynevezett rejtett hálózatoknak...

MA 16:34

Az új szerződés a Yellowstone-univerzumban tartja Kayce Duttont

🤠 Kayce Dutton nélkül már elképzelhetetlen a Yellowstone (Yellowstone) világa — egy idő után azonban mégis felmerült a kérdés, meddig marad a karakter...

MA 16:24

Az ökológiai áttörések kétélű kardja: megmenthető a természet?

Például ami először apróságnak tűnt, gyakran jelentős hatással lehet az egész természetre: egyetlen döntés, egy apró változás, és máris beindul egy láncreakció, amely alapjaiban alakítja át a tájat...

MA 16:01

Az intézményi bitcoin végre beindul: megérkeztek az új hozamtrezorok

A Mezo legújabb fejlesztése alapjaiban változtatja meg, ahogy a nagy szereplők tekintenek a bitcoinra...

MA 15:56

Az üzemanyagárak az egekben: megállíthatatlanul drágul a benzin

🚗 Az iráni háború a harmadik hónapjába lépett, miközben a béketárgyalások továbbra is holtpontra jutottak...

MA 15:45

Az elveszett fejezet titka: előkerült a rejtett Resident Evil-tartalom

Különösen igaz ez akkor, ha egy sikeres játékról derül ki, hogy még több meglepetést rejtegethetett volna...

MA 15:34

Az áttörést hozó kriptopénztárca meghódítja Latin-Amerikát

💰 Erre utal többek között az, hogy a latin-amerikai digitális pénztárca, a Belo 5 milliárd forint (14 millió amerikai dollár) tőkét szerzett legutóbbi befektetési körében, amelyet a stabilcoin-kibocsátó Tether vezetett...

MA 15:23

Az új Bitcoin-rali küszöbén: újra rohamra indul az árfolyam

💰 A Bitcoin erősödést mutat, miközben a 75 600 dolláros (körülbelül 27,7 millió forintos) szintnél támaszt talált, és elérte a 77 700 dollárt (28,5 millió forint)...

MA 15:12

Itt az áttörés: közel a hibamentes kvantumszámítógép kora

⚡ A kvantumszámítógépek fejlődésének egyik legnagyobb akadálya a rendszerben megjelenő zavaró hibák leküzdése...

MA 15:02

Az elveszett séf az Arc Raidersben: így tárd fel Safe Harbor titkát

A Stella Montisból származó különleges kutatási adatok és technológia most átkerültek a Riven Tides térképre, ahol nem szokványos módon egy hotel éttermének konyhai személyzete által hátrahagyott nyomokat kell követni egy elásott Exodus-alkatrészig...

MA 14:56

A GTA 6 hamarosan berobban: az év játéka érkezik

Kérdés, mikor kezdődik végre a várva várt Grand Theft Auto 6 hivatalos marketingkampánya...

MA 14:45

Az okostévé, ami követ: Dreame R8000F a nappalidban

📺 Érdemes megvizsgálni, hogy a Dreame legújabb innovációja, az Innix Aura mini‑LED R8000F milyen újdonságokat hoz az okosotthonok világába...