2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

hétfő 20:56

A Microsoft új MI-chipje háromszor veri a Google processzorát

A Microsoft legújabb fejlesztésű, Maia 200 nevű MI-chipje valóságos áttörést jelent a piacon, ugyanis háromszor nagyobb teljesítményt kínál, mint a Google TPU-ja vagy az Amazon Trainium processzora...

hétfő 20:38

A nagy olajkalauz a forrólevegős sütőhöz: mit használj, mit kerülj?

Az air fryer forradalmasította az otthoni sütést: gyors, hatékony, és minimális zsiradékot igényel...

hétfő 20:19

Az új Microsoft-chip turbót ad a mesterséges intelligenciának

A Microsoft bemutatta legújabb chipjét, a Maia 200-at, amelyet kifejezetten az MI-alkalmazások futtatására terveztek...

hétfő 20:03

Az új Resident Evil a túlélőhorror és akció csúcsmixe?

👾 A Resident Evil Requiem új szintre emeli a széria jellegzetes kettősségét: a borzongató túlélőhorrort és a pörgős akciót két főhős szemszögéből élhetjük át...

hétfő 19:56

Az igazság: így ölöd meg a telefonod akkumulátorát

Mindenki szeretné, ha a telefonja bírja a strapát akár egy hosszú napon át is, ezért sokan töltőn hagyják éjjel-nappal, hogy mindig száz százalékon legyen...

hétfő 19:37

Jön a nagy dobás: az új Starship márciusra kész

🚀 Az új, jelentősen továbbfejlesztett Starship rakéta első tesztjei március közepén várhatók, jelentette be Elon Musk a közösségi oldalán...

hétfő 19:20

Az emberiség újra a Holdra tör, előkerült a legősibb barlangrajz

🚀 Ami kezdetben ártalmatlannak tűnt, mára az űrkutatás, a betegségek gyógyítása és az emberi kultúra eredetének megértése terén is ugrásszerű áttöréseket hozott...

hétfő 19:00

A világ nincs felkészülve az egyre gyilkosabb hőhullámokra

Mintegy 3,8 milliárd ember életét változtathatja meg a növekvő extrém hőség, és bár a trópusi országok szenvedik el leginkább a következményeket, a mérsékelt égövi régiók is komoly alkalmazkodásra kényszerülnek...

hétfő 18:57

Az utolsó részecske után: meghalt a részecskefizika, vagy csak nehezebb lett?

Érdemes megvizsgálni, milyen állapotban van a részecskefizika több mint egy évtizeddel azután, hogy 2012 nyarán megtalálták a Higgs-bozont a Nagy Hadronütköztetőben (LHC)...

hétfő 18:38

A Microsoft új chipje felforgatja az MI-piacot

A Microsoft bemutatta új, második generációs mesterségesintelligencia-chipjét, a Maia 200-at, amely 30%-kal nagyobb teljesítményt ígér az azonos árkategóriájú riválisoknál...

hétfő 18:19

Az új AirTag messzebbre hallatszik, hangosabb és okosabb, mint valaha

Az Apple meglepetésfrissítéssel rukkolt elő: a népszerű AirTag mostantól nagyobb hatótávval és erősebb hangszóróval érkezik, vadonatúj külső nélkül, de jelentős technikai előrelépésekkel...

hétfő 17:57

A nappalidból igazi mozi: ezektől tényleg prémium lesz

🎥 Érdekes felvetés, hogy a tökéletesen összeállított otthoni mozi nemcsak egy nagy tévéről szól...

hétfő 17:38

Tényleg eltűnnek az adataid? Amit a törlőszolgáltatásokról tudnod kell

Személyes adataink számos adatkereskedőnél és embereket kereső oldalakon megtalálhatók – nemcsak a legismertebbeknél, hanem több ezer más helyen is...

hétfő 17:19

Az ingyenes MI is aranybánya lehet a Google-nek

A legtöbb MI-felhasználó továbbra is az ingyenes eszközöket választja, vagyis hatalmas bevételi lehetőségek maradnak kiaknázatlanul...

hétfő 17:02

A friss VMware-sebezhetőséget már gőzerővel támadják

⚠️ Az amerikai Kiberbiztonsági és Infrastruktúra-biztonsági Ügynökség (CISA) sürgős figyelmeztetést adott ki egy kritikus súlyosságú VMware vCenter Server sebezhetőségről, amelyet támadók már aktívan kihasználnak...

hétfő 16:55

A 2026-os Windows 11 első frissítése totális káoszt okozott

💥 Az év első Windows 11-frissítése igazi katasztrófát okozott a Microsoftnál. Először leállásokat jelentettek egyes gépeken a januári javítás telepítése után, ezért a Microsoft gyors sürgősségi javítást adott ki...

hétfő 16:38

Az Nvidia letaszítja az Apple-t a félvezetők trónjáról

Az idei évben teljesen új fejezet nyílik a globális félvezetőiparban: az Nvidia várhatóan felülmúlja az Apple-t, és a világ legnagyobb szerződéses chipgyártójának, a tajvani TSMC-nek a legnagyobb ügyfelévé válik...

hétfő 16:19

A történelmi nukleáris béke pillanata elérkezett

Több mint nyolc éve nem robbantottak fel atomfegyvert a világon – ez új rekord az atombomba korának kezdete óta...

hétfő 16:01

Az MI-forradalom átírja, mit jelent ma a karriersiker

Az idei davosi Világgazdasági Fórumon Jensen Huang, az Nvidia vezetője meghökkentő gondolatot fogalmazott meg: az MI várhatóan a fizikai munkát igénylő pozíciók számát növeli...

hétfő 15:57

A nano-hidroxiapatit letaszítja a fluoridot a trónról?

Érdekes felvetés, hogy a fluorid körüli vita egyre hevesebb, miközben egyre többen keresnek alternatívát a hagyományos fogkrémek helyett...

hétfő 15:38

A sós tavaszi óceán megduplázza az El Niño szélsőségeit

🌊 A nyugati Csendes-óceán tavaszi felszíni vizeinek szokatlanul magas sótartalma drámai módon növeli az El Niño rendkívül erős, időjárást felforgató eseményeinek esélyét...

hétfő 15:19

Az FBI simán megszerezheti a BitLocker-kulcsaidat

A Microsoft megerősítette, hogy hivatalos jogi megkeresés esetén kiadja a felhasználók BitLocker-titkosítási kulcsait az FBI-nak...

hétfő 15:02

Az új Proton VPN: Linuxon végre igazi élmény mindenkinek

A svájci Proton VPN nagy bejelentéssel rázta fel a Linux világát: óriási megújuláson megy át mind a grafikus felületű (GUI), mind a parancssoros (CLI) alkalmazása...

hétfő 14:56

A dollár szabadesésben, aranyláz söpör végig a piacon

💲 Érdemes látni, hogy az amerikai dollár hirtelen zuhanása pénteken vette kezdetét, miután kiderült: a New York-i Fed valóságos ritkaságnak számító „rate check”-et (árfolyam-ellenőrzést) végzett a dollár/jen árfolyamon...

hétfő 14:37

Az újabb bitcoin-zuhanás: jön a negyedik vesztes hónap?

A bitcoin árfolyama már negyedik egymást követő hónapban lehet veszteséges, amire utoljára 2018-ban volt példa...

hétfő 14:19

Az otthon sem mindig biztonságos: így védd magad egyedül

A hosszabb időt egyedül otthon töltők számára sok fejfájást okozhat a biztonság kérdése...

hétfő 14:02

A Brax Open Slate: tablet, amely fittyet hány a Big Technek

A Brax Technologies újabb merész lépést tesz a független okoseszközök piacán: bemutatta Open Slate nevű 2 az 1-ben táblagépét, amely egyszerre szolgál fogyasztói táblagépként és teljes értékű, ARM-alapú Linux munkaállomásként...

hétfő 13:55

A sci-fi világában tényleg nincs helye az MI-nek?

🤖 Az utóbbi hónapokban egyre több népszerű sci-fi szerző és kulturális rendezvény áll ki az MI-vel generált alkotások ellen...

hétfő 13:37

A rekord bitcoinnyereség szárnyakat ad a Metaplanetnek

A Metaplanet jelentős változásokon ment keresztül 2025 végén, amikor több mint 100 milliárd jen összegű számviteli veszteséget volt kénytelen elszámolni a bitcoin árfolyamának ingadozása miatt...