2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 08:09

Az FDA új szabálya: próbák nélkül jöhetnek génterápiák – biztonságos?

Fontos kérdés, hogy jó irányba mutat-e, ha a szabályozók elengedik a klinikai vizsgálatokat egyes génterápiák esetében...

MA 07:57

Az Ayşegül Eraslant állítólag aktokkal zsarolták halála előtt

A 27 éves Ayşegül Eraslan török tartalomgyártót otthonában holtan találták, mindössze néhány nappal egy egyiptomi utazás után...

MA 07:51

Az MI-árnyék az új S3-botrány: 5 000 app bizonyítja

Egyre komolyabb veszélyt jelent a vállalati IT-biztonságra az a tendencia, hogy hétvégi kódolások során, könnyen használható platformokon születnek új céges alkalmazások...

MA 07:43

A PVKK, az év legjobban várt ágyúszimulátora 2027-re csúszik – jó okból

Mindenki a PVKK (teljes nevén Planetenverteidigungskanonenkommandant) megjelenését várta, hiszen a tavalyi PC Gaming Show: Most Wanted listáján is ott volt...

MA 07:29

Az aranyláz tör ki: 900%-os buggal kaszálnak a Diablo IV-ben

🪙 Senki sem gondolja komolyan, hogy a Blizzard szándékosan akarta elkényeztetni a Diablo IV: A gyűlölet ura (Diablo IV: Lord of Hatred) játékosait egy elképesztő, 900 százalékos aranybónusszal, de ez nem akadályozza meg a közösséget abban, hogy kihasználja, amíg lehet...

MA 07:23

A GTA 6 tétje óriási: csak a nagyfiúk játszanak

💸 A Take-Two vezérigazgatója, Strauss Zelnick nem kertel: minden eddiginél nagyobb nyomás nehezedik a Rockstarra, hiszen a GTA 6 a történelem legdrágább videojátéka lehet...

MA 07:15

Az új felfedezés átírja az elhízás évtizedes tudományát

🔬 Az emberi test zsírraktározásának működését évtizedeken át egyfajta vészhelyzeti üzemanyagkapcsolóként képzelték el...

MA 06:57

Az SEC-elnök Atkins új játékszabályokat jelez a blokklánc-piacokra és MI-pénzügyre

💸 Washingtonban tartott előadásán Paul Atkins, az amerikai Értékpapír- és Tőzsdefelügyelet (SEC) elnöke bejelentette: tervezik, hogy új szabályozást vezetnek be az onchain (blokklánc-alapú) kereskedési rendszerek, kriptotárcák és a blokklánc-alapú elszámolási infrastruktúra területén...

MA 06:50

Az amerikai kormány közzétett közel 200 UAP-aktát, köztük Apollo-űrhajósok furcsa észleléseit

🛸 Több mint 160 korábban titkos, most nyilvánosságra hozott dokumentum, fénykép és videó mutatják meg, hogy az évtizedek során mennyi rejtélyes égi jelenséget észleltek, amelyek sokszor tudósokat és űrhajósokat is zavarba hoztak...

MA 06:44

Az Xpeng G6: végre valódi Tesla-rivális, de nem hibátlan

🚗 Lényeges szempont, hogy a kínai Xpeng márka mozgásba hozta az európai villanyautó-piacot, ez azonban csak a jéghegy csúcsa...

MA 06:36

Az MI-ügynökök startuplázat robbantottak a Consensus Miami EasyA hackathonon

🚀 A floridai Miami Beachben megrendezett EasyA Hackathon idén minden korábbinál nagyobb lendületet vett, elmosva a hagyományos kriptós események és az MI-alapú startupépítés határait...

MA 06:28

Az altcoin-rali kilövi a Coinbase-t, a bitcoin 80 ezer fölött

Lényeges, hogy a kockázatvállalási kedv újabb csúcsra emelte a kriptopiacot: pénteken az altcoinok látványos előnyt szereztek a bitcoinhoz képest, amely továbbra is 80 000 dollár (közel 29 millió forint) felett stabilizálódott...

MA 06:22

A Kraken anyavállalata az OCC-licencre hajt, szövetségi kriptobankká válna

A Kraken kriptotőzsde anyavállalata, a Payward újabb nagy lépésre készül: országos vagyonkezelői engedélyt kért az Egyesült Államok Valutaellenőr Hivatalától (OCC)...

MA 06:05

Történelmi események a mai napon (Május 9.)

Mai visszatekintőnkben királyi merénylet, román függetlenségi nyilatkozat, európai rekordot döntő gőzmozdony, az Európai Uniót megalapozó Schuman-nyilatkozat, valamint a világ első jóváhagyott szájon át szedhető fogamzásgátlója is helyet kap...

péntek 20:34

Az eltűnt tárhely nyomában: a Micron 245 TB-os adatközponti SSD-je

💻 Felmerül a kérdés, hogy hová tűnik a rengeteg adat, hiszen a legújabb Micron SSD-be már 245 TB-nyi adat fér el – nagyjából egy egész adatközpontnyi kapacitás egyetlen egységben...

péntek 20:24

A virágos növények kilenc drámai ugrása: megszülettek a reménykeltő szörnyek

A legújabb kutatások látványos összefüggéseket tárnak fel arról, miként formálták át a virágos növényeket a földtörténeti katasztrófák...

péntek 20:13

A 401 milliárd dolláros MI-infrastruktúra, amit a cégek nem hagyhatnak figyelmen kívül

💰 Az elmúlt két évben minden túlméretezett adatközpontot és elburjánzó IT-költségvetést csak egy dolog magyarázott: a GPU-őrület...

péntek 20:02

Az irányítás, nem a kapuőrködés: így teszi biztonságossá az SAP az MI‑kapcsolatokat

🔒 Ami először apróságnak tűnt, mára kulcskérdéssé vált: miként biztosítható a vállalati szoftverek megbízhatósága és biztonsága az MI-vezérelt ökoszisztémában?..

péntek 19:56

A gyenge gyorsjelentés után a Coinbase-t szabályozás és stabilcoinok menthetik meg?

Felmerül a kérdés, hogy a Coinbase képes lesz-e tartós növekedést felmutatni, vagy továbbra is a kriptopiac szeszélyeitől függ...

péntek 19:45

A stabilcoinok megkapták az engedélyt – most jön a feketeleves

A kriptopiac legizgalmasabb fejleménye az utóbbi időben, hogy a stabilcoinok már nem csupán digitális kuriózumnak számítanak, hanem a hagyományos pénzügyek világában is komoly szerepet kaptak...

péntek 19:35

A veszélyes CallPhantom-csalás 28 Google Play-alkalmazáson terjedt, milliókat érintve

Több mint hétmillió alkalommal töltöttek le olyan androidos alkalmazásokat a Google Play Áruházból, amelyek hamisan ígértek hozzáférést telefonhívásokhoz, SMS-ekhez és WhatsApp-üzenetekhez...

péntek 19:23

A Sony hezitál: RAM‑válság árnyékolja be a PS6 rajtját

💲 A játékostársadalmat aggasztja, mi lesz a következő generációs konzolok ára és megjelenési ideje...

péntek 19:12

Az Evercold majdnem felrúgta a Final Fantasy XIV 12 éves hagyományát

🌨 Érdekes felvetés, hogy a Final Fantasy 14 bővítményeinek nevei mindig összetett szavakból állnak, amire már több mint egy évtizede következetesen ügyel a Square Enix...

péntek 19:03

A hantavírus réme: utasokat figyelnek, Spanyolország irányított evakuálásra készül

😷 Tipikus eset, amikor egy békésnek ígérkező tengeri utazás egy csapásra világjárvány-veszéllyé változik...

péntek 18:56

Az XRP 1,40 dollár felé tart, de csökken az áttörés esélye

📈 Az XRP árfolyama közelít az 1,40 dolláros, vagyis bő 510 forintos szinthez, miközben az utóbbi időben a volatilitás látványosan visszaesett, a piac pedig egyre kisebb sávban kereskedik...

péntek 18:45

A Canvas-botrány: Rockstar-hackerek 280 millió iskolai felhasználó adatait lopták el

Érdemes megvizsgálni, hogy a világ egyik legnépszerűbb oktatási platformja, a Canvas, történetének talán legnagyobb adatlopásával szembesült...

péntek 18:34

A NEAR Protocol ralija vezeti feljebb a kriptopiacot

📈 Az elmúlt napokban pozitív fordulat következett be a kriptodevizák piacán, mivel a vezető szereplők jelentős emelkedést értek el...

péntek 18:23

A világ jelszavainak fele percek alatt feltörhető

A legtöbb jelszó alig jelent akadályt a hackereknek. Egy friss kutatás szerint világszerte majdnem minden második jelszót kevesebb mint egy perc alatt fel lehet törni...

péntek 17:23

A Revolutnál 2 centet mutatott a Bitcoin – kijelzési hiba

Fontos kérdés, mennyire megbízhatóak a kriptovaluta-alkalmazások valós piaci körülmények között. Ilyen eset például, amikor egy elterjedt pénzügyi appban egy hirtelen árfolyamesés villan fel a semmiből – legalábbis néhány felhasználó képernyőjén...