2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 21:46

Az otthoni iroda trónja: gamer szék, ami mindent túlél

💪 Ami kezdetben ártalmatlannak tűnt, az utóbbi években jelentősen megváltozott: világszerte milliók home office-ba kényszerültek, ami alaposan átrajzolta, mit várunk el az irodabútortól...

MA 21:01

Az Andes-vírus rejtett kockázatai: mi számít közeli kontaktusnak?

A közelmúltban egy tengerjáró hajón történt hantavírus-kitörés miatt jelenleg mintegy 150 utast figyelnek meg, illetve akár hathetes karanténba is helyeznek...

MA 20:56

Az XRP lenyomta a Bitcoint, de a nagy ralihoz kell a Kongresszus

📈 Az XRP ára jelentősen megugrott, miután az amerikai szenátus bankügyi bizottsága előrelépést tett a Digital Asset Market Clarity Act ügyében...

MA 20:46

A nyolcéves afroamerikai kisfiú rejtélye: fehér telepesek közé temetve Marylandben

🕵 Egy 17. századi marylandi temető különös titkot rejtett: egy mindössze nyolcéves fiú földi maradványait találták meg, aki túlnyomórészt afrikai származású volt...

MA 20:34

Az agy rejtett tápanyaghiánya állhat a szorongás mögött

Az agyunk működése mögötti titkos összetevőkre újabb fény vetült: amerikai kutatók felfedezték, hogy a tartós szorongással élőknél kimutathatóan kevesebb található egy létfontosságú agyi tápanyagból, amelyet az emberek többsége amúgy is hiányosan visz be...

MA 20:22

Az elszálló energia- és műtrágyaárak kétségbe ejtik a gazdákat

Felmerül a kérdés, meddig bírják még a mezőgazdasági termelők a folyamatosan növekvő költségeket...

MA 20:12

A Google nem veszi el a 15 GB-ot – számot kér érte

💰 Az új Gmail-fiókok tulajdonosai néhány országban kellemetlen meglepetéssel szembesülnek: a megszokott 15 GB ingyenes tárhely helyett kezdetben csak 5 GB-ot kapnak...

MA 20:01

A kriptós hozaméhség milliárdokat sodor hackerveszélybe

A decentralizált pénzügyek világa 2020-ban új alapokra helyezte a digitális pénzügyeket: közvetítők nélkül, globálisan elérhető rendszert ígért...

MA 19:55

Az öregedés és krónikus betegségek mögött apró bélrészecskék rejtőzhetnek

🤒 Az öregedéssel és krónikus betegségekkel kapcsolatban egészen új tényezőt fedeztek fel a kutatók: a bélben képződő parányi részecskék, úgynevezett exoszómák is kulcsszerepet játszhatnak a szervezet gyulladásos folyamataiban...

MA 19:34

A MercurySteam-nél zajló fájdalmas leépítések közepette érkezik a Blades of Fire Steamen

A Metroid Dread fejlesztőjeként ismert MercurySteam komoly változások elé néz: a stúdió kénytelen volt elbocsátásokat bejelenteni, miközben legújabb akciójátékuk, a God of War-hangulatú Blades of Fire végre Steamen is elérhetővé vált...

MA 19:23

Az óceán mélyén felfedezett fékek állítják meg a hatalmas földrengéseket

Több mint 1600 kilométerrel Ecuador partjaitól nyugatra, a Csendes-óceán mélyén található Gofar-törésvonal már legalább harminc éve szinte óraműpontossággal produkál nagy, 6-os erősségű földrengéseket...

MA 19:01

A szenzációs etióp ősmaradvány átírja az emberi eredet történetét

👑 A legújabb etiópiai leletek alaposan átírják, amit az emberi fejlődésről eddig tudtunk...

MA 18:55

Az univerzum rejtett főútjai: először fotózták le a kozmikus hálót

💫 A tudósoknak most először sikerült közvetlenül lefotózniuk a kozmikus hálót, vagyis azt a rejtett, óriási anyaghálózatot, amely a galaxisokat kapcsolja össze az univerzumban...

MA 18:45

A 293 millió dolláros KelpDAO-hack: a DeFi felnövésre kényszerül

A decentralizált pénzügyek (DeFi) világa új korszakhoz érkezett: a KelpDAO-nál történt közel 108 milliárd forintnyi (293 millió dollár) értékű hackertámadás világossá tette, hogy már nem elsősorban a programozási hibák jelentik a fő veszélyt, hanem a rendszerek egyre növekvő összetettsége és a mögöttes infrastruktúra...

MA 18:34

A végső falat: közeleg A Mackó utolsó évada

🍽 Ki hinné, hogy egy chicagói étterem konyhája ilyen hamar meghódítja a világot?..

MA 17:23

A Chelsea–Man City FA-kupa-döntő: ingyenes közvetítések, csatornák, csapathírek

⚽ A 2026-os FA Kupa-döntőben két olyan csapat csap össze, amelyek számára kulcsfontosságú a győzelem – bár mindkettő csalódásokkal teli időszakot igyekszik felejteni...

MA 17:12

A Lenovo csodatöltője itt van – de sosem juthatsz hozzá

⚡ Megérkezett a Lenovo Legion P5 10000, amely kis mérettel és megnyerő dizájnnal igyekszik minden helyzetben biztosítani a töltöttséget...

MA 16:02

A Googlebook alig debütált, máris 5 dolog, amit utálnak benne

👎 Ez a jelenség jól illusztrálható azzal, hogy alig jelentették be a Google legfrissebb laptopját, a Googlebookot, máris komoly negatív visszhangot kelt az interneten...

MA 15:35

A Dyson HushJet kompakt légtisztító: csendes erő kis méretben

💫 Fontos kérdés, hogy lehet-e egy légszűrő egyszerre kicsi, halk és mégis nagy teljesítményű...

MA 15:13

Az ingyenes videoszerkesztő, amely felforgatja a fotósok és filmesek világát

Az utóbbi években óriási átalakulás ment végbe abban, ahogyan fényképeket és videókat készítünk...

MA 14:56

A raidek? Ugyan: a horgászat a Final Fantasy XIV igazi pokla

A világ vége már többször elmaradt, de egyetlen hal kifogása még mindig lehetetlen küldetésnek tűnik...

MA 14:46

Az e heti tudomány: új név a PCOS-nek, neandervölgyi fogorvosok, idegen kristály

Május közepén különösen sok izgalmas tudományos felfedezés került napvilágra. Az egészségügytől kezdve a történelem előtti fogorvoslásig, sőt, egészen a nukleáris kísérletek által született különleges kristályokig szóltak a hírek – és ezek nem csupán a tudósokat, hanem a hétköznapi embereket is gondolkodásra késztették...

MA 14:35

A Fallout alkotója szerint akár horkoló tehéngyűlölő, ufóhívő is lehettél volna

👽 A Fallout ma már legendás szerepjátékrendszere, a S.P.E.C.I.A.L., csak a játékfejlesztés utolsó szakaszában került képbe...

MA 14:23

A nászharangok szólnak: Taylor Swift és Travis Kelce randiznak New Yorkban

Különösen igaz ez akkor, ha két világsztár randevúzik a reflektorfény közepén: Taylor Swift és párja, Travis Kelce ismét együtt mutatkoztak New Yorkban...

MA 14:01

A növényektől is elkaphatunk betegséget?

🌲 A sci-fi filmek gyakran rémisztgetnek azzal, hogy az emberek növényi kórokozóktól kapnak halálos fertőzéseket, de vajon reális ez a forgatókönyv?..

MA 13:56

A LIRR új sztrájkja napokra megbénítja egész New Yorkot

A Long Island Rail Road (LIRR) dolgozói hajnalban sztrájkba kezdtek, miután péntek este zátonyra futottak a bértárgyalások...

MA 13:34

A hét 7 legnagyobb techsztorija: Android 17-től a feltört kriptotárcáig

🚀 Április közepe technológiai fronton igazán eseménydúsan telt: a legnagyobb mobiloperációs rendszerek frissítései és néhány szokatlan újdonság is napvilágot látott...

MA 13:23

Az év meccse: ma dől el a skót cím, Celtic–Hearts

Az idei skót bajnokság utolsó nagy összecsapása minden eddiginél feszültebbnek ígérkezik, hiszen eldől, kié lesz a bajnoki cím: a többszörös győztes Celtic vagy a bajnoki aranyra 66 éve éhező Hearts örülhet a lefújáskor...

MA 12:56

A frissen felfedezett, kékbálna-méretű aszteroida hétfőn szinte súrolja a Földet – nézd élőben!

🚀 Egy kivételesen nagy, frissen felfedezett aszteroida, amely akár 35 méter átmérőjű is lehet, hétfőn szokatlanul közel száguld el a Föld mellett, ráadásul élőben is megtekinthető lesz...