2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 11:37

Az MI-kódsegédek falják a fejlesztők adatait

Két ártó szándékú, MI-alapú kódsegéd bukkant fel a Visual Studio Code (VS Code) Marketplace-en, amelyek összesen másfél millió alkalommal kerültek telepítésre, és titokban Kínába szivárogtatták ki a fejlesztők adatait...

MA 11:19

Az App Store keresését elárasztják az újabb reklámok

🔍 Március 3-tól az Apple tovább növeli a hirdetések számát az App Store keresési találatai között...

MA 11:02

Az igazság ára: Miért érezzük, hogy visszaélnek velünk?

Ha egy háztartásban, munkahelyen vagy közösségben fel kell osztani a feladatokat, az igazságtalanság érzése szinte elkerülhetetlen...

MA 10:57

Az MI-vel chatelő tiniknek mostantól jár a pihenő

A Meta ideiglenesen leállítja a tinédzserek hozzáférését MI-karaktereihez, miközben egy új, jobb felhasználói élményt nyújtó verziót fejleszt...

MA 10:49

A szélsőséges téli viharok kaotikus tudománya

❄ Az Egyesült Államokat szokatlanul erős, életveszélyes hideghullám éri el napokon belül...

MA 10:33

Az Ethereum mindent kockára tesz a kvantumfenyegetés ellen

Az Ethereum Foundation (EF) mostantól első számú stratégiai célnak tekinti a kvantumszámítógépek elleni védelmet, és ehhez külön posztkvantum-csapatot hozott létre Thomas Coratger vezetésével, Emile, kriptográfiai szakértő, támogatásával...

MA 10:27

Az internet megőrült: brutális BGP útvonal-szivárgás bénította a hálózatot

💥 Felmerül a kérdés, hogy mennyire lehetünk biztonságban, amikor a globális internet-infrastruktúra egyetlen rosszul konfigurált router miatt szinte percek alatt megbénulhat...

MA 10:18

Az orosz VPN-vadászat új fokozatba kapcsol: kemény év jön

Oroszország intenzíven törekszik arra, hogy lezárja az internetét a külvilág elől...

MA 09:58

A tökéletes otthoni párátlanító: erre figyelj vásárlás előtt

🌳 Érdemes megvizsgálni, hogy egy jó párátlanító mennyi fejfájástól kímélhet meg: csökkenti a páralecsapódást, megelőzi a penészt, segít a fűtési költségek terén, és javítja az otthonod levegőjének minőségét...

MA 09:50

A testünk az új frontvonal: beköltözik a jövő technológiája

🤖 Óriási átrendeződés előtt áll a technológia világa: a nagyvállalatok most abban bíznak, hogy végre készen állunk egy állandó, digitális társ beengedésére a mindennapjainkba...

MA 09:33

Jön az év legvadabb tőzsdei hete a Wall Streeten

A jövő hét sorsfordító lehet a tőzsdén, hiszen egyszerre érkeznek meg a legnagyobb technológiai óriások negyedéves jelentései, és a Federal Reserve is újabb kamatdöntést hoz...

MA 09:25

Az Instapaper hidegzuhanya: fizetős lett a Küldés Kindle-re

💧 Február 19-től az Instapaper egyik legnépszerűbb funkciója, a Send to Kindle csak a fizetős Instapaper Premium-előfizetéssel lesz használható...

MA 09:17

Az Intel chipekért ölre mennek, de üresek a polcok

💸 A kereslet az Intel processzorai iránt továbbra is erős, azonban a gyártó képtelen elegendő darabot előállítani ahhoz, hogy lépést tartson a vásárlói igényekkel...

MA 09:09

Kitört a Waymo-botrány: az önvezető taxik megszegik az iskolabusz-szabályokat

A Waymo önvezető taxijai újabb nagy port kavartak az Egyesült Államokban, miután kiderült: számos alkalommal jogsértően haladtak el megálló iskolabuszok mellett, miközben gyerekeket szállítottak le vagy vettek fel...

MA 09:01

Az új szűrőtechnológia véget vethet az örök vegyszereknek

A Rice Egyetemen fejlesztett forradalmi szűrőtechnológia új szintre emelheti a PFAS, azaz az „örök vegyszerek” eltávolítását a vízből...

MA 08:57

A mesterséges intelligencia lecsap: négy szoftverhiba célkeresztben

Az amerikai kiberbiztonsági hatóság (CISA) négy súlyos hibát azonosított vállalati szoftverekben, amelyeket hackerek már aktívan kihasználnak...

MA 08:50

Az OpenAI titka: így turbózza a PostgreSQL a ChatGPT-t

⚡ Az OpenAI 800 millió felhasználónak szolgáltatja a ChatGPT-t és az API-platformját egyetlen elsődleges PostgreSQL-példányon keresztül...

MA 08:42

Az iPhone szárnyal Indiában, miközben stagnál a piac

📱 Az Apple iPhone történelmi csúcsot döntött Indiában 2025-ben, 14 millió készüléket szállított le, ezzel 9%-os részesedést szerzett a helyi okostelefon-piacon...

MA 08:33

A grönlandi kincsek ára: miért olyan nehéz a bányászat?

Grönland földje rengeteg ígéretes ásványi nyersanyagot rejt, ezek kiaknázásáról azonban sokkal könnyebb álmodozni, mint a valódi kitermelésüket véghez vinni...

MA 08:24

A kutatók merész új trükkje: űrszemétvadászat földrengésszenzorokkal

A földrengésfigyelő hálózatok nemcsak a föld rengéseit, hanem a világűrből lehulló űrszemét útját is képesek követni – olykor pontosabban mint a radar...

MA 08:17

A Harvey tovább hódít: felvásárolta a Hexust

A Harvey, az egyik legfelkapottabb jogi MI-startup, megvette a mindössze két éve alapított Hexust, amely termékbemutató- és oktatóvideók, valamint útmutatók készítésére szolgáló eszközöket fejlesztett...

MA 08:01

Az új OnePlus 15T kamerája leuralja a mezőnyt?

📷 Egy kiszivárgott információ szerint a OnePlus 15T merész újításokat hoz a kamerák terén...

MA 07:59

Az otthoni arcfiatalítás új favoritjai: 2026 legjobb mikroáramos készülékei

Az arcbőr öregedése mindenkit utolér: idővel csökken a feszesség, az állvonal elmosódása és az arcpuffadás egyre láthatóbb...

MA 07:50

Száguld az infláció, a mindennapok mégsem könnyebbek

📈 A brit infláció ismét emelkedni kezdett, miközben a kormány igyekszik az élet megfizethetőségének javítását az első helyre állítani...

MA 07:42

A Colorado-folyó válsága elhúzódik: meddig bírják a nyugati kormányzók?

💧 A Colorado folyó jövője most még bizonytalanabb, mint valaha: hetek óta eredménytelenül húzódnak a hét érintett nyugati állam – Utah, Arizona, Nevada, Wyoming, Kalifornia, Colorado és Új-Mexikó – tárgyalásai arról, hogyan csökkentsék vízfelhasználásukat, mivel az év végén lejárnak a jelenlegi szabályok...

MA 07:33

A hírességek fellázadnak az MI-vel elkövetett lopások ellen

Több száz híres művész, köztük Scarlett Johansson és Cyndi Lauper, közösen emelt szót az ellen, hogy az MI-fejlesztők jogdíj fizetése nélkül használják fel műveiket algoritmusok tanítására...

MA 07:25

Az orosz hekkerek ismét megpróbálták teljesen lekapcsolni Lengyelországot a hálózatról

Egy decemberi próbálkozás, amely Lengyelország energiahálózatát célozta, orosz állami hekkerekhez köthető – jelentette egy kiberbiztonsági kutatócég...

MA 07:17

A kormány BitLocker-kulcsai: tényleg a tiéd marad a titkod?

🔑 A Microsoft BitLocker titkosítása sokak számára a biztonság szinonimája, pedig korántsem jelent teljes védelmet...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 1/24

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     WebFX (iPhone/iPad)Ez a játékos kártyatrükk igazán különleges élményt kínál: a néző a saját telefonján, táblagépén vagy számítógépén nyit meg egy weboldalt, ahol a bűvész egy fényképet emel ki...