2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 11:23

A WLFI-özön: Trump kedvence elszabadítja a tokenáradatot

Nem hiszem el, de a World Liberty Financial épp most készül elengedni 62 milliárd WLFI tokent, egy közel teljes egyetértés mellett meghozott szavazás után...

MA 11:12

Az amerikai államkötvények padlóra küldik a bitcoint

💸 Az amerikai kincstár 30 éves államkötvényének hozama 5%-ra ugrott, ami évek óta nem látott magasság, megközelítve a 2025...

MA 10:58

Az Amazon mindent kockára tesz: indul a felhős MI-háború

Az Amazon egy teljesen új korszakot nyitott meg a vállalati MI-szolgáltatásokban, amikor bejelentette, hogy a legfejlettebb OpenAI-modellek mostantól elérhetők az Amazon Bedrockon, és ezzel véget vetett a felhőszolgáltatói kizárólagosságnak...

MA 10:43

Fotonteleportáció élesben: tényleg küszöbön a kvantuminternet?

Egy vezető nemzetközi kutatócsoportnak először sikerült egy foton állapotát kvantumteleportációval átvinni két, egymástól fizikailag távol lévő kvantumpont között...

MA 10:36

A táskának is álcázott okostelefon: Dreame Aurora – forradalom vagy giccs?

A Dreame Next rendezvény harmadik napján a Dreame két igazán különleges okostelefont mutatott be a közönségnek, amelyek dizájnja egyeseknél rajongást, másoknál viszolygást váltott ki...

MA 10:29

A térdfájdalom ellenszere: egy speciális cipő és bicikli?

🚴 Térdízületi porckopás esetén rengetegen keresik a legjobb természetes fájdalomcsillapítót, és most végre megérkezett egy átfogó válasz...

MA 10:22

Az MI rávágja a választ, de nem érti a kérdést

💭 Az emberi gondolkodás pontos működését régóta próbálják megfejteni a pszichológusok: vajon létezik-e egységes elmélet, vagy külön-külön kell vizsgálni a figyelmet, a memóriát és más agyi funkciókat?..

MA 10:08

Az óceán mélyén lassan kettéhasad a Föld

A Csendes-óceán északnyugati partjai alatt épp egyedülálló geológiai folyamat játszódik le: a szakértők először kaptak tiszta képet arról, miként szakad szét egy alábukó (szubdukciós) zóna...

MA 10:01

A kriptovilág új fegyvere: a HYPE token letarolja a piacot?

🔥 Erre utal többek között az, hogy a decentralizált Hyperliquid tőzsde egyre nagyobb ambíciókkal lép be az eseményalapú fogadási piacokra...

MA 09:57

A falnak rohant az MI-alapú visszakeresés: újra kell gondolni a RAG-ot

Az elmúlt negyedévben alapjaiban változott meg, ahogy a nagyvállalatok a visszakeresésen alapuló generatív MI-rendszereket (RAG) használják...

MA 09:36

Az orr titkos térképe: így fejti meg a világ szagait

Sokáig óriási rejtély volt, miként érzékeljük és dolgozzuk fel a szagokat...

MA 09:29

Az IBM Bob elhozza az MI-fejlesztés új korszakát

Az MI-alapú ügynökök megjelenése egyre inkább mindennapos a vállalati szoftverfejlesztésben. Amint a fejlesztők új platformokkal kísérleteznek, a szervezetek fokozottan ki vannak téve a biztonsági és szervezeti hibáknak...

MA 09:22

Az új fogyasztószer tényleg vakságot okoz? Itt tartunk most

👀 Az utóbbi évek nagy slágere lett a testsúlycsökkentő szerek között a Wegovy, de egy friss kutatás most aggodalmat keltett: kapcsolat lehet a gyógyszer használata és a ritka, úgynevezett „szemguta” (ischaemiás optikus neuropátia, röviden ION) között...

MA 09:15

A következő Tales of-remaster, amire senki sem számított!

A Bandai Namco továbbra sem hagyja unatkozni a Tales of-rajongókat; újabb klasszikusnak készül új életet adni...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/30

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Sight Words: Dolch Coach (iPhone/iPad)Ez a játék élményszerűen fejleszti az angol olvasási készséget, hiszen az összes Dolch Sight Words szintet lefedi...

MA 09:07

Az őskori spanyol bányákban rejtőzhet a skandináv rejtély kulcsa

Érdekes fejlemény, hogy hat eddig ismeretlen bronzkori bányát tártak fel Délnyugat-Spanyolországban, Extremadurában, amelyek új fényt vethetnek a skandináv bronzkori fémek eredetére...

MA 09:01

Az óriáscégek megállíthatatlanul lapátolják a milliárdokat a mesterséges intelligenciába

A világ legnagyobb technológiai vállalatai egészen elképesztő összegeket fektetnek az MI-infrastruktúra fejlesztésébe...

MA 08:57

Az első 3D-s felvétel, ahogy T-sejtek leszámolnak a rákkal

A citotoxikus T-limfociták az immunrendszer különleges „gyilkos” sejtjei, amelyek hihetetlen pontossággal képesek felismerni és elpusztítani a fertőzött vagy rákos sejteket...

MA 08:50

Jönnek a robotok: átveszik a csomagkezelést a reptereken

🤖 Fontos kérdés, hogy meddig kell még embereknek cipekedniük a reptereken, vagy hamarosan átvehetik a helyüket a gépek...

MA 08:28

Az AWS Quick forradalmasítja a munkahelyi automatizációt

Többek között az AWS Quick olyan teljesen új lehetőségeket hozott a vállalati MI-rendszerekbe, amelyek eddig a központi irányítópultok számára láthatatlanok voltak...

MA 08:22

Az olajár-sokk ismét földhöz vágta a Bitcoint és a kriptopiacot

Érdekes felvetés, hogy a geopolitikai feszültségek mennyire befolyásolják a kriptovaluták árfolyamát, különösen, amikor az olaj ára hirtelen szárnyal...

MA 08:08

A malária átírta történelmünket: nem véletlenek őseink útvonalai

🐟 Afrika őskori emberei nem pusztán az élelem vagy a klíma miatt választottak lakóhelyet: a malária is jelentős szerepet játszott abban, hogy merre vándoroltak és hol telepedtek le...

MA 08:01

A szívritmus lehet a kulcs a rák terjedésének megállításához

❤ Az emberi szív különleges ritmusának köszönhetően rendkívül ritka, hogy rák alakul ki közvetlenül a szívben...

MA 07:57

Az MI-láz ára: vállalatok vagyonokat égetnek kihasználatlan GPU-kra

💸 A vállalatoknak évek óta komoly gondot okoz a grafikus processzorok (GPU-k) kihasználatlansága: súlyos pénzeket fizetnek a drága MI-infrastruktúráért, miközben az erőforrások nagy részét valójában nem használják ki...

MA 07:50

Az űr megszállottjai: Kojima, Musk és Newell titkos levelei

🚀 A japán játékfejlesztő Hideo Kojima nem csupán a videojátékok iránt rajong, hanem egyenesen az űrbe vágyik...

MA 07:36

Az irányíthatatlan SpaceX rakétafokozat már idén nyáron a Holdba csapódhat

🚀 Érdekes felvetés, hogy az űrszemét problémája mára már a Holdat is elérte...

MA 07:29

Az Amazon felrúgja az MI-exkluzivitást: új fejezet a felhőháborúban

Az Amazon egyszerre több látványos MI-fejlesztést mutatott be San Franciscóban, amelyek alapjaiban forgathatják fel a vállalati MI-piacot...

MA 07:22

Az eső és pára napja a NYT Strandsben – itt a megoldások!

☁ A mai NYT Strands játék témája igazán hűvös és nedves hangulatot idéz, hiszen a „Nedves takarók” (wet blankets) köré összpontosul...

MA 07:15

A robot lekörözi az embert: új félmaratoni rekord

🤖 Egy szemet kápráztató, vibrálóan piros humanoid robot, az Honor Robotics D1, történelmet írt Pekingben: 21,1 kilométert (13,1 mérföldet) tett meg mindössze 50 perc 26 másodperc alatt, ezzel megdöntve az eddigi emberi félmaratoni rekordot, amely 57 perc 20 másodperc volt...