2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 12:46

A hálószoba új kedvence: ébresztő és légtisztító egyben – Blueair Mini Restful teszt

🛏 Különleges újdonság bukkant fel az éjjeliszekrényeken: a Blueair Mini Restful Sunrise ébresztőóra és légtisztító egyben, ráadásul ébredőfénnyel, így három eszköz helyett csak egynek kell helyet szorítani az ágy mellett...

MA 12:34

A névtelen alak Csillagváros legnagyobb rejtélye

A Csillagváros (Star City) új tudományos-fantasztikus sorozata elrugaszkodik a megszokott űrversenyes tematikától, és egészen sötét, feszültséggel teli irányba halad...

MA 11:02

A LaCie 8big Pro5: 256 TB 8K-hoz, ára is óriási.

Amikor a LaCie 8big Pro5 256 TB-os DAS-t először csatlakoztattam, szinte letaglózott a döbbenetes tárhely: egyetlen egységből hirtelen 256 terabájtnyi közvetlen elérésű tárhely állt rendelkezésre...

MA 10:55

A robotok az ajtóban: Dyson főmérnöke három évet ad

🤖 Érdemes megvizsgálni, milyen áttörések várhatók a háztartási robotok és a mesterséges intelligencia fejlődésében...

MA 10:46

A Bitcoin újra 61 ezer dollár fölé kapaszkodott, $1,6 milliárdos likvidálások után

📈 Péntek éjjel a Bitcoin árfolyama egészen 59 227 dollárig, azaz mintegy 22,2 millió forintig esett vissza, mielőtt ismét emelkedni kezdett, és szombat reggelre az ázsiai piacokon már 61 000 dollár (körülbelül 22,8 millió forint) körül stabilizálódott...

MA 10:37

A kábellopások árát a brit közösségek fizetik meg

🔋 Az egyre növekvő kábel- és fémlopás már súlyos, 220 milliárd forintos veszteséget okoz évente az Egyesült Királyságnak...

MA 10:19

Az indie fejlesztők az algoritmusok helyett 1500 órát vadásztak Bandcampen

🎵 Egy lényeges szempont, hogy a játékzene már régóta nem számít puszta háttérzajnak: sokan már az egyedi hangzásvilág miatt is várnak egy-egy új címet...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 6/6

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Risp: Budget & Savings (iPhone/iPad)A Risp egy modern pénzügyi alkalmazás, amely segít rendszerezni és átláthatóvá tenni saját pénzügyeidet...

MA 09:02

Az MI‑ügynökök kora: Copilottal tarol a Microsoft?

A Microsoft legújabb fejlesztései új szintre emelik az MI-ügynökök vállalati felhasználását...

MA 08:54

A Star Trek-ikon Nichelle Nichols családja 4,7 milliárdos kártérítést nyert haláleseti perben

⭐ Nichelle Nichols családja 13 millió dollár (kb. 4,7 milliárd forint) kártérítést nyert jogellenes halál miatti perben, miután a színésznő 2022-ben a New Mexico-i Gila Orvosi Központban elhunyt...

MA 08:46

A 20 cent alá zuhanó ADA mellett forr a Cardano-közösség

Majdnem négy éve nem látott mélységbe zuhant a Cardano natív tokenje, az ADA, miközben a közösség aktivitása szokatlanul magasra hágott...

MA 08:37

A Meta MI-je bárkinek hozzákötötte a helyreállító e‑mailt, a SOC vakon maradt

👁 Ebből következően érdemes megérteni, milyen korszakos problémát okozhat egy rosszul felügyelt MI-alapú ügyfélszolgálat...

MA 08:19

A Hasbro MI-hangja kinyírja a nosztalgiát: Optimus Prime és Mr. Krumplifej

A Hasbro újabb lendülettel lépett be a digitális korszakba: a játékgyártó mostantól interaktív MI-élményekkel ruházza fel legismertebb karaktereit...

MA 08:01

A mesterséges intelligencia leleplezte a vezető kriptóhálózat óriási hibáját – bankok a következők?

Többek között a Zcash hálózatán talált, négy éve meglévő kritikus hiba kavarta fel a kriptovilág állóvizét...

MA 07:55

Az eddigi legerősebb El Niño jön idén, friss előrejelzés szerint

Az év végére példátlan erejű El Niño-jelenség várható – legalábbis az Európai Középtávú Időjárás-előrejelzési Központ friss jelentése szerint...

MA 07:46

Az MI‑ügynökök munka közben tanulnak — csak nem a teljes csapatodért

Egyre több munkahelyen segítenek MI-ügynökök, mégis gyakran olyan érzésünk lehet, mintha mindenki külön-külön tanítgatná ugyanazokat az eszközöket...

MA 07:37

Az ideális Amazon Fire Stick: melyiket válaszd és miért?

📺 Felmerül a kérdés, hogy érdemes-e beruházni egy Fire TV Stick eszközre...

MA 07:28

A Farkas köztünk 2 végre 2027-ben érkezik hét év után

Hét év telt el a bejelentés óta, de végre kézzelfogható dátumot kapott az A farkas köztünk 2 (The Wolf Among Us 2)...

MA 07:19

A GOG bocsánatot kért náci rúnás hírleveléért

⚠ A GOG rendkívül kellemetlen helyzetbe került, miután egyik hírlevelük tárgysorában egyértelműen felismerhető náci rúnákat használtak...

MA 07:10

Az óriásskorpió hatalmas ollókkal uralta az ősi Brit-szigetek földjét és vizeit

🦂 415 millió évvel ezelőtt a mai Egyesült Királyság területén egy hatalmas skorpió járta a szárazföldet és a vizeket...

MA 07:01

A BlackRock által támogatott Securitize zöld utat kap a New York-i Értéktőzsdére

A BlackRock által támogatott Securitize közelebb került ahhoz, hogy tőzsdén jegyzett vállalat legyen, ugyanis az amerikai értékpapír-felügyelet jóváhagyta azt a kulcsfontosságú beadványt, amely a Cantor Equity Partners II-vel (CEPT) tervezett egyesüléséhez kapcsolódik...

MA 06:55

A Denon Home 400: stílus, tartalom, komoly térhangzás — egy aprósággal

🎧 Amikor egy hangfal egyszerre szól stílusról, funkcionalitásról és élményről, a Denon legújabb otthoni központi egysége igazi figyelemfelkeltő lehet...

MA 06:37

A Microsoft kiszabadult: szuperintelligenciát hajszol OpenAI nélkül

Egy lényeges szempont, hogy a Microsoft mesterségesintelligencia-stratégiája évekig összefonódott az OpenAI-jal kötött, több mint 4 300 milliárd forintot érő gigászi partnerséggel...

MA 06:28

A HP új szörnye letarolja a Windowsos MI‑PC‑ket

💥 A Computex 2026 kiállításon a HP olyan munkaállomásokat mutatott be, amelyek már az új NVIDIA GB300 Grace Blackwell Ultra Desktop Superchipet használják, és minden eddiginél nagyobb teljesítményt kínálnak a Windowsos MI-fejlesztőknek...

MA 06:19

A vérbeli bitcoinisták miért nem pánikolnak a 200 milliárd dolláros zuhanás után?

Érdemes megvizsgálni, miért fogadják nyugalommal az elszánt bitcoin-rajongók a bitcoin árfolyamának legutóbbi, 17 százalékos zuhanását, amely egyetlen hét alatt közel 72 ezermilliárd forintnyi piaci értéket törölt el...

MA 06:05

Történelmi események a mai napon (Június 6.)

Mit hozott ez a nap a történelemben? A nap kiemelkedő eseményei között ott van Robert F...

MA 06:01

A kettős csillagok születésének titka: a mágneses mezők?

Az univerzum hatalmas gáz- és porfelhőiben születnek a csillagok. Ezekből a felhőkből kisebb, sűrűbb magok alakulnak ki, majd csillagokká válnak...

péntek 21:56

A bitcoin 60 ezret ostromol, a Dogecoin és Shiba Inu 9%-ot esnek

Egy jelentős eladási hullám a Dogecoint és a Shiba Inut is magával rántotta: mindkettő közel 9 százalékot esett, miközben a bitcoin a 60 000 dolláros szinthez (kb...

péntek 21:23

A legjobban testreszabható, biztonságos VPN mindössze havi 500 forintért

Megemlíthető továbbá, hogy aki teljes irányítást szeretne a biztonságos internetkapcsolata felett, annak a Private Internet Access (PIA) egyedülálló lehetőséget kínál...