2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 20:38

Az OpenAI-t belülről marcangolja a ChatGPT-hajsza

💥 Ebből következően érdemes megérteni, hogy az OpenAI stratégiai váltása nemcsak a cég működésére, hanem az egész MI-ágazatra komoly hatással lehet...

MA 20:20

A süllyesztett, automata kilincseknek Kína végleg búcsút int

Kína 2027-től betiltja az automatikus, süllyesztett ajtókilincseket az új autóknál, 2029-től pedig a már forgalomban lévő modelleknél is kötelező az átalakítás...

MA 20:01

Az MI-fejlesztők kávészünetelnek? Leállt a Claude Code

A Claude Code, az Anthropic népszerű MI-fejlesztői eszköze ma jelentős leállást szenvedett el, több ezer programozó életét borítva fel...

MA 19:55

A mesterséges intelligencia sorra buktatja a csalókat Dél-Koreában

🔎 Dél-Korea kormánya és fő értéktőzsdéje, a Korea Exchange új MI-alapú eszközöket vet be, hogy kiszűrje azokat a manipulációs trükköket, amelyek során befektetők először felvásárolnak részvényeket vagy kriptovalutákat, majd hamis híreket terjesztve próbálják felpörgetni az árakat...

MA 19:37

Az év nagy ugrása: szárnyal a Kraken anyavállalata

A Kraken kriptotőzsde mögött álló Payward elképesztő évet zárt: bevételei 33%-kal, 818 milliárd forintra emelkedtek, miközben a teljes tranzakciós volumen elérte a 2 billió dollárt (kb...

MA 19:20

A PayPal élére HP-s nagyágyú érkezik

💵 Meglepetést hozott a PayPal bejelentése: Enrique Lores, a HP korábbi vezérigazgatója lesz a vállalat új vezérigazgatója és elnöke...

MA 19:02

A pók ihlette forradalom: megszületett az elsüllyeszthetetlen fém

🕷 Első pillantásra úgy tűnt, hogy a süllyedő fém örök törvény: egy pénzérme elmerül a vízben, mindenki tudja, hogy a fém nehezebb, mint a víz...

MA 18:55

A sikeres MI-bevezetés kulcsa: a profi termékmenedzsment

A generatív MI valódi értékét csak akkor lehet kiaknázni a munkahelyen, ha a csapat tagjai elsajátítják a termékmenedzsment alapjait...

MA 18:19

Az Adobe leállítja az Animate-et, felháborodtak az animátorok és fejlesztők

Az Adobe váratlanul bejelentette, hogy megszünteti az Adobe Animate programot, és erről e-mailben értesítette a felhasználókat...

MA 18:02

A francia rendőrség razziázott az X irodájában a Grok deepfake-botrány miatt

A francia hatóságok kedden razziát tartottak az X párizsi irodájában, miután büntetőeljárás indult a platform Grok nevű MI-eszköze miatt, amelyet széles körben használtak szexuálisan explicit képek generálására...

MA 17:56

Az alumínium visszatér: csúszós Google-forradalom a laptopokon?

Hosszú évek várakozása után végre eljuthatunk oda, hogy a Google egyesíti az Androidot és a ChromeOS-t egyetlen operációs rendszerben...

MA 17:38

A Waymo robban: önvezető taxik 20 új városban

🚗 A Google anyacégéhez, az Alphabethez tartozó Waymo komolyan veszi a Tesla egyre erősebb kihívását, és hatalmas bővülésre készül...

MA 17:19

Az Artemis II főpróbája szivárgás miatt hiúsult meg

A NASA leállította az Artemis II rakéta hidrogénnel való feltöltését, miután feltételezett szivárgást észleltek az üzemanyagrendszerben...

MA 17:04

Az új hűtő tényleg megéri – ennyit spórolsz a villanyszámlán

Az otthoni nagy háztartási gépek közül a hűtőszekrény az, amely folyamatosan fogyasztja az áramot – ezért nem árt időnként elgondolkodni a cseréjén...

MA 16:56

Az új Windows 11-frissítés felforgatja a mindennapokat

💻 A februári Windows 11-frissítés már a küszöbön áll, és nemcsak apró változásokkal, hanem néhány igazán izgalmas újítással érkezik...

MA 16:38

Az olcsó fém lehet a klímaválság kulcsa?

⚡ A Yale Egyetem és a Missouri Egyetem kutatói jelentős áttörést értek el a tiszta energiaforrások kutatásában: sikerült egy olcsó, könnyen hozzáférhető fém, a mangán segítségével hatékonyan átalakítani a szén-dioxidot formiáttá...

MA 16:19

Az MI-láz pörgeti a tőzsdéket, a Palantir az élen

A Palantir rendkívül erős negyedéves eredményei valódi felfutást indítottak el a globális részvénypiacokon...

MA 16:01

A Nothing Phone 4a-széria küszöbön: hamarosan debütál

📱 A Nothing Phone 4a és a Nothing Phone 4a Pro várhatóan már március elején, pontosabban március 5-én mutatkoznak be, így aki új készülékre vágyik, annak már alig egy hónapot kell csak várnia...

MA 15:55

Az új BTS-korszak berobban: koncert, film és világtúra a Netflixen

🎶 A K-pop ikonikus zenekara, a BTS idén márciusban nagyszabású visszatérést tart...

MA 15:37

Az okos zárak kora leáldozott Kínában

🔒 Kína betiltja a Tesla-féle rejtett, elektronikus ajtónyitókat, miután ezek számos halálos balesethez vezettek...

MA 15:21

Az Artemis II megint csúszik: a hidrogén utat tör magának

🚀 A NASA ismét elhalasztja az Artemis II holdmisszió indítását, mert a hétfői próbán a rakéta és a floridai Kennedy Űrközpont indítóállványa között komoly hidrogénszivárgást észleltek...

MA 15:02

A Crunchyroll árat emel: drágább lesz az anime

Az anime-rajongóknak mélyebben kell a zsebükbe nyúlniuk, ugyanis emelkedtek a Crunchyroll havidíjai...

MA 14:20

A Pfizer új, havi injekciója forradalmasíthatja a fogyást

A Pfizer legújabb humán kísérlete biztató eredményeket mutat egy új, havonta adható elhízás elleni injekcióval kapcsolatban...

MA 14:02

Az új Switch csúcsra ért, történelmet ír a Nintendo

A Switch végre letaszította a DS-t a trónról, így minden idők legkelendőbb Nintendo konzolja lett: 2025...

MA 13:38

A SpaceX bekebelezte az xAI-t – MI forradalom az űrben

🚀 Elon Musk újabb meghökkentő lépése alapjaiban formálja át a technológiai világot: a SpaceX váratlanul felvásárolta a három éve alapított xAI-t, így egyesült a rakétatechnológia, az MI és az űrinternet világa...

MA 13:19

Az orosz hekkerek ismét célba vették a Microsoft Office-t

🕵 A napokban orosz hackerek, az APT28 (más néven Fancy Bear vagy Sofacy), kihasználták a Microsoft Office egy frissen javított sérülékenységét (CVE-2026-21509) célzott támadásokhoz Ukrajnában és más európai szervezetek ellen...

MA 13:02

A szíved otthoni ellenőrzésének két pofonegyszerű módja

Érdekes felvetés, hogy a szívbetegségek, amelyek ma Magyarországon is vezető haláloknak számítanak, sok esetben megelőzhetők lennének egy kis odafigyeléssel...

MA 12:55

Az MI még nem gyújtotta be a kriptó rakétáit

Az MI és a kriptopiac összefonódása rengeteg izgalmat vált ki, de egyelőre hiányzik az a világos és közérthető alkalmazás, amely valódi áttörést hozna...

MA 12:37

Az X francia irodáira is rajtaütött a rendőrség

A francia hatóságok kibervédelmi egységei, az Europol támogatásával, razziát tartottak Elon Musk közösségi platformjának, az X-nek a párizsi irodáiban...