2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 16:36

Az iPhone-rabság vége: így lesz belőle butamobil

Ma már könnyű észrevétlenül belezuhanni a végtelen görgetés csapdájába: egy gyors üzenetellenőrzés vagy néhány percnyi szünet a munkahelyen pillanatok alatt órává nyúlhat...

MA 16:12

A mindentudó MI? Kvantumszámítógéppel turbóznak a kutatók

Felmerül a kérdés, hogy mire képes együtt az MI és a kvantumszámítógép...

MA 15:56

Az exkluzív Pixel-funkció, amiről még mindig kevesen tudnak

A Google Pixel telefonok régóta rendelkeznek egyes, csak erre a szériára jellemző funkciókkal, de akad közöttük olyan is, amely még a rajongók széles táborában is ismeretlen maradt...

MA 15:45

Az újabb bitcoinzuhanás mögött a DeFi-válság és a CME-rés?

💸 Például míg pénteken még történelmi magasságokat ostromolt a bitcoin, hétfőn már ismét visszatért a megszokott, ingadozó árfolyamtartományba...

MA 15:34

Az újabb Teams-fiaskó: a Microsoft visszavonta a balul sikerült frissítést

Különösen igaz ez akkor, ha a munkanap éppen csak elkezdődött, és a Microsoft Teams egyszerűen nem hajlandó elindulni...

MA 15:23

Az égbolt újra felragyog: jön a Lyrida meteorraj

🌈 Ahogy áprilisban végre berobban a tavasz, rendkívüli égi látványosság vár: a Lyrida meteorraj ismét felvillanyozza az éjszakai égboltot...

MA 15:12

Az óriási bitcoináradat felforgatja a kriptopiacot, tombol a DeFi-káosz

💸 Megemlíthető, hogy a kriptopiac most igencsak izgalmas időszakát éli. Az amerikai spot bitcoin ETF-ek pénteken 244 milliárd forintnyi (663 millió USD) friss tőkét szívtak fel, ami január közepe óta a legmagasabb napi érték...

MA 15:01

Az önvezető Teslák meghódítják Dallast és Houstont

🚗 Fontos kérdés, hogy mennyire bízhatunk a sofőr nélküli autókban – most pedig két új texasi városban nyílik lehetőség élesben kipróbálni őket...

MA 14:34

Az életmentő pánikfrissítés: a Microsoft megmenti a Windows-szervereket

Van, hogy az áprilisi frissítés valójában áprilisi tréfa, csak a poén most egyes szerveradminokat ért utol...

MA 14:23

A dolomit évszázados rejtélye végre megoldódott – de miért fontos?

🧠 Két évszázad után először sikerült a tudósoknak laboratóriumi körülmények között dolomitot növeszteniük, átfogó választ adva a geológia egyik legrégebbi rejtélyére...

MA 14:02

A Kelp DAO végzetes hibája: 106 milliárd forint eltűnt

Fontos kérdés, miként okozhat ekkora károkat egyetlen rossz biztonsági döntés. Egy 106 milliárd forint (290 millió USD) értékű támadás rázta meg a decentralizált pénzügyi szektort, amikor a Kelp DAO jóvátehetetlen károkat szenvedett – és mindez nem protokollhibán, hanem a rosszul beállított védelem miatt történt...

MA 13:48

Az új fényterápiás kütyük tényleg működnek, vagy csak felhajtás?

💡 Az elmúlt néhány évben óriásit ugrott a vörösfény-terápiás eszközök piaca: 2024-ben 158 milliárd forintot tett ki, 2025-re várhatóan 167 milliárd lesz, és 2032-re elérheti a 248 milliárdot is...

MA 13:34

Az első New Glenn sikeresen landolt, az űrséta viszont csúszik

🚀 Senki sem várta volna, hogy a Blue Origin első kereskedelmi küldetése ilyen felemásan alakul: miközben a New Glenn rakéta újrahasznosított első fokozata tökéletesen leszállt a visszatérő hajóra, a fő feladat – a kommunikációs műhold pályára állítása – kudarcba fulladt...

MA 13:23

Az AirPods kamerás verziója nagy bajban: falba ütközött a fejlesztés

Érdekes felvetés, hogy a jövőben akár kamerával felszerelt fülhallgatókat is viselhetünk, ám a legújabb kutatások szerint a technológia közel sem áll még készen ennek megvalósítására...

MA 12:35

Két perc és kész: feltörik az EU korhatár‑ellenőrző appját

🔒 Az Európai Unió nemrég bemutatta saját online életkor‑ellenőrző mobilalkalmazását, amellyel a tervek szerint a gyermekeket akarják védeni a közösségi médiától és a felnőtt tartalmaktól...

MA 12:24

Az MI-cégek mossák kezeiket – veszélyben a felhasználók?

👋 A vállalati digitalizáció korában egyre több technológiai óriás buzdít arra, hogy a biztonsági kihívásokat is MI-re bízzák...

MA 12:03

Az űr újabb blamája: félrement a Blue Origin rakétája

🚀 Érdekes felvetés, hogy mi számít valódi áttörésnek az űriparban: az újrahasznosítható rakéták, vagy inkább a küldetések hibátlan teljesítése?..

MA 11:36

Az okos futárrobotok a vakok új segítői: biztonságosabb járdák

Fontos kérdés, hogyan tehetők városaink járdái mindenki számára biztonságossá, különösen a látássérült emberek számára...

MA 11:02

Az egészség titkos kulcsa a bélmozgás ritmusa

Jellemző példa, hogy a bélmozgás sebessége – vagyis az, hogy a szervezetünk milyen gyorsan szabadul meg a salakanyagoktól – jóval többet elárulhat az egészségünkről, mint gondolnánk...

MA 10:43

A pekingi robotfélmaraton új rekordokat dönt, senki sem esik el a rajtnál

Idén Peking ismét megrendezte a humanoid robotok félmaratonját, és most valóban sikerült elkerülni a tavalyi, közröhej tárgyát képező malőröket...

MA 10:28

Az igazi vagy? A Zoom már megmondja, ember ül-e a gépnél

A Zoom mostantól egészen új szintre emeli a biztonságot: partnerséget kötött Sam Altman íriszszkennelésre épülő startupjával (korábban Worldcoin néven futott), aminek köszönhetően élőben is ellenőrizhető lesz, hogy valódi ember ül-e a cégtalálkozón, vagy valami sunyi AI-avatár próbál belépni...

MA 10:22

A Samsung legújabb frissítése forradalmasítja a fotószerkesztést

📷 A Samsung jelentős frissítést adott ki a Galaxy Enhance-X alkalmazáshoz, amely teljesen új külsőt és rengeteg friss szerkesztési funkciót hozott magával...

MA 10:11

Botrány: Az Anthropic állítólag kémprogramot telepít a Claude Desktop mellé

😱 A Claude Desktop telepítésekor az Anthropic engedély nélkül rejt el egy natív kémprogram-hidat a gépeden, amely minden Chromium-alapú böngészőt érinthet...

MA 10:01

A Nobel-díjas fizikus baljós jóslata: 50 évünk sincs hátra

David Gross, a világhírű Nobel-díjas fizikus szerint az emberiség túlélése drámaian bizonytalanná vált: jó eséllyel már csak néhány évtized van hátra civilizációnk számára...

MA 09:57

Az új KelpDAO-botrány: 110 milliárd forint tűnt el, megrendült a DeFi.

A hétvégén minden eddiginél nagyobb összeomlás rázta meg a kriptoszektort: egy ügyesen kivitelezett támadással 292 millió dollár (kb...

MA 09:37

Az amerikai streptococcusos torokgyulladás eredetét egy 700 éves múmia fedi fel

🔭 Első pillantásra úgy tűnt, hogy csak egy újabb bolíviai múmiát vizsgáltak a kutatók, ám a lelet meghökkentő felfedezést hozott...

MA 09:29

A DeFi-katasztrófa: 4800 milliárd forint olvadt el két nap alatt

💸 A decentralizált pénzügyi szektorban hatalmas mértékű tőkekivonás indult el a hétvégén történt KelpDAO-támadást követően...

MA 09:15

Az NIST ezentúl csak a legveszélyesebb hibákat pontozza

A Nemzeti Szabványügyi és Technológiai Intézet úgy döntött, felhagy az alacsonyabb prioritású sérülékenységek súlyossági pontszámainak megállapításával...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/20

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Monthly Dystopia (iPhone/iPad)A Monthly Dystopia egy túlélő játék, amelyet George Orwell 1984 című műve inspirált...