2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 16:19

A történelmi nukleáris béke pillanata elérkezett

Több mint nyolc éve nem robbantottak fel atomfegyvert a világon – ez új rekord az atombomba korának kezdete óta...

MA 16:01

Az MI-forradalom átírja, mit jelent ma a karriersiker

Az idei davosi Világgazdasági Fórumon Jensen Huang, az Nvidia vezetője meghökkentő gondolatot fogalmazott meg: az MI várhatóan a fizikai munkát igénylő pozíciók számát növeli...

MA 15:57

A nano-hidroxiapatit letaszítja a fluoridot a trónról?

Érdekes felvetés, hogy a fluorid körüli vita egyre hevesebb, miközben egyre többen keresnek alternatívát a hagyományos fogkrémek helyett...

MA 15:38

A sós tavaszi óceán megduplázza az El Niño szélsőségeit

🌊 A nyugati Csendes-óceán tavaszi felszíni vizeinek szokatlanul magas sótartalma drámai módon növeli az El Niño rendkívül erős, időjárást felforgató eseményeinek esélyét...

MA 15:19

Az FBI simán megszerezheti a BitLocker-kulcsaidat

A Microsoft megerősítette, hogy hivatalos jogi megkeresés esetén kiadja a felhasználók BitLocker-titkosítási kulcsait az FBI-nak...

MA 15:02

Az új Proton VPN: Linuxon végre igazi élmény mindenkinek

A svájci Proton VPN nagy bejelentéssel rázta fel a Linux világát: óriási megújuláson megy át mind a grafikus felületű (GUI), mind a parancssoros (CLI) alkalmazása...

MA 14:56

A dollár szabadesésben, aranyláz söpör végig a piacon

💲 Érdemes látni, hogy az amerikai dollár hirtelen zuhanása pénteken vette kezdetét, miután kiderült: a New York-i Fed valóságos ritkaságnak számító „rate check”-et (árfolyam-ellenőrzést) végzett a dollár/jen árfolyamon...

MA 14:37

Az újabb bitcoin-zuhanás: jön a negyedik vesztes hónap?

A bitcoin árfolyama már negyedik egymást követő hónapban lehet veszteséges, amire utoljára 2018-ban volt példa...

MA 14:19

Az otthon sem mindig biztonságos: így védd magad egyedül

A hosszabb időt egyedül otthon töltők számára sok fejfájást okozhat a biztonság kérdése...

MA 14:02

A Brax Open Slate: tablet, amely fittyet hány a Big Technek

A Brax Technologies újabb merész lépést tesz a független okoseszközök piacán: bemutatta Open Slate nevű 2 az 1-ben táblagépét, amely egyszerre szolgál fogyasztói táblagépként és teljes értékű, ARM-alapú Linux munkaállomásként...

MA 13:55

A sci-fi világában tényleg nincs helye az MI-nek?

🤖 Az utóbbi hónapokban egyre több népszerű sci-fi szerző és kulturális rendezvény áll ki az MI-vel generált alkotások ellen...

MA 13:37

A rekord bitcoinnyereség szárnyakat ad a Metaplanetnek

A Metaplanet jelentős változásokon ment keresztül 2025 végén, amikor több mint 100 milliárd jen összegű számviteli veszteséget volt kénytelen elszámolni a bitcoin árfolyamának ingadozása miatt...

MA 13:19

A narancssárga bányavíz húzza ki Amerikát a válságból?

Az Appalache-hegységben, különösen Pennsylvaniában és Nyugat-Virginiában, savas, rozsdaszínű víz szivárog a bányákból, narancssárgára színezve a köveket és fémmel borítva a patakmedreket...

MA 13:02

Az amerikai TikTok-tulajdonosok hétvégéje totális káoszba torkollott

💥 Az első hétvégén, amióta amerikai kézbe került, a TikTok váratlan technikai problémákat hozott...

MA 12:55

Az Ark Invest rárepült a zuhanó kriptórészvényekre

Az Ark Invest pénteken összesen 21,5 millió dollár, vagyis nagyjából 7,5 milliárd forint értékben vásárolt részvényeket három jelentős kriptovállalat részvényeiből, miközben a bitcoin árfolyama a 90 000 dollár (kb...

MA 12:39

Az Apple Siri-je a Gemini erejével kihívja az Androidot

🤖 Megemlíthető továbbá, hogy a hangalapú asszisztensek területén évek óta áthidalhatatlan a szakadék az Android- és az Apple-eszközök között...

MA 12:01

A mesterséges intelligencia már lapot szerkeszt – Mi lesz velünk?

Egy újabb botrányos MI-megoldás jelent meg: most már komplett újságot képesek előállítani, minimális emberi beavatkozással...

MA 11:57

Az óceán mélye még mindig rejtély: szinte semmit sem tudunk

🐚 A Sulawesi-sziget melletti mélységekben két kupolás tengeralattjáró ereszkedik alá Indonézia partjainál, akár 1 000 méter mélyre is...

MA 11:37

A szerverhűtés űrkorszakba lép

Egy kaliforniai startup, a Karman Industries merőben új módszerrel hűti a szerverközpontokat: a SpaceX rakétamotorjainak technológiáját vetette be, hogy kevesebb árammal, víz nélkül, ráadásul sokkal kisebb helyigénnyel működjön a rendszer...

MA 11:20

A sima séta tényleg felér egy edzéssel?

A modern életmódban egyre többen keresik az egyszerű, de hatékony mozgásformákat...

MA 10:59

Az MI nem érti az ügyfeleket, az intenció‑első megközelítés viszont igen

Hihetetlen, de mégis igaz, hogy a hagyományos beszélgető MI-rendszerek gyakran félreértik a felhasználók szándékait...

MA 10:50

A nettó zéró illúziója óriásfák nélkül – tévúton a szabályozás

🌳 A világ vezetői már 2015-ben elköteleződtek a nettó zéró kibocsátás mellett, azonban a cél közel sem olyan könnyen elérhető, mint sok ország remélte – még ott sem, ahol hatalmas erdőterületek vannak, amelyek elvileg elnyelik a szén-dioxidot, ha megállítják az erdőirtást...

MA 10:41

A pénztárcabarát Tenda SE108: 2,5 GbE csendben és könnyedén

A Tenda SE108 egy 8 portos, ventilátor nélküli 2.5GbE switch, ami a megszokott házban érkezik, szinte ikertestvére a BrosTrend S3-nak...

MA 10:33

Az Outlook ismét összeomlik? Itt a Microsoft újabb vészfrissítése

Legújabb vészfrissítését adta ki a Microsoft a Windows 11-hez, miután ismét kritikus hibákat találtak az Outlookban és a felhőben tárolt fájlok kezelésében...

MA 10:25

A pusztító téli vihar térdre kényszerítette Amerikát

🌨 Az Egyesült Államokon végigsöprő rendkívüli téli vihar legalább 10 ember halálát okozta, miközben az utazók, a légiközlekedés és háztartások tömegei küzdenek a rendkívüli kihívásokkal...

MA 10:18

Az autók titkai kiszivárogtak: 76 nulladik napi sebezhetőség

A Pwn2Own Automotive 2026 nevű versenyen minden eddiginél súlyosabb biztonsági hiányosságokat lepleztek le a modern járműtechnológiákban...

MA 10:02

A madarak riasztó fogyása nagy átalakulást jelez Norvégiában

🐦 Sokáig a norvég mezőgazdasági táj madárvilága változatlan, sőt gazdag volt, ám az elmúlt 25 évben drámai visszaesés tapasztalható...

MA 09:58

A davosi csúcson a valódi főszereplő: Kína növekvő befolyása

Miközben a világ vezetői Davosban a rivaldafényben vitatták meg a globális gazdaság kihívásait, Kína csendben, de határozottan erősítette pozícióját, kihasználva az USA és szövetségesei közötti növekvő feszültségeket...

MA 09:51

Az MI-forradalom új korszaka: amikor ember és gép együtt dönt

Az MI-rendszerek rohamos fejlődése mellett egyre hangsúlyosabbá válik az igény, hogy ne csak feladatokat oldjanak meg, hanem valódi csapatmunkára is alkalmasak legyenek...