2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

vasárnap 21:12

Az ingyenes Shakira-koncert kétmillió embert vonzott Rio tengerpartjára

Rio de Janeiroban szombat este felejthetetlen hangulat uralkodott, amikor Kolumbia szupersztárja, Shakira adott ingyenes koncertet a legendás Copacabana strandon...

vasárnap 21:01

Az MI leleplezi a távoli világok titkait

Az asztronómia világában új mérföldkőhöz érkeztek a Warwicki Egyetem kutatói, akik több mint 100 exobolygó létezését erősítették meg a NASA TESS űrteleszkópjának adataiból...

vasárnap 20:56

A legújabb Windows 11-fiaskó: miért falja fel a memóriát?

Jellemző, hogy egyre több felhasználó szenved a Windows 11 memóriaigényétől, miközben a memóriamodulok megdrágultak, és alig akad pénztárcabarát RAM a piacon...

vasárnap 20:45

Az amerikaiakat még soha ennyi csaló nem csapta be

Fontos kérdés, hogy miért növekednek megállíthatatlanul a különböző csalások az Egyesült Államokban...

vasárnap 20:34

Az emlékeink csak illúziók – a Boltzmann-agy rejtélye

💡 Könnyen lehet, hogy amit szilárd emléknek és valóságnak tartunk, csupán véletlenszerű fizikai folyamatok eredménye...

vasárnap 20:23

Az ásványbányászat rejtett ára: beteg gyerekek, mérgezett víz

🚨 A tisztább, zöldebb jövő felé vezető út tele van ellentmondásokkal: a mesterséges intelligenciához, szélerőművekhez, mobiltelefonokhoz, elektromos autókhoz és védelmi rendszerekhez nélkülözhetetlen kritikus ásványokat döntően a világ legszegényebb vidékein bányásszák, az ott élők egészsége és környezete pedig végzetesen megsínyli ezt...

vasárnap 20:12

Az idő megbicsaklik: apró hibát találtak a valóság szövetén

A kvantummechanika világa tele van meglepő, néha meghökkentő elméletekkel. Az egészen parányi részecskék nem viselkednek úgy, mint a hétköznapi tárgyak: egyszerre több állapotban lehetnek jelen, amit szuperpozíciónak nevezünk...

vasárnap 19:56

A legújabb botrány: tinédzserek feldúlták a New York-i Szcientológia-egyházat

🔥 Szombat délután káosz tört ki a New York-i Szcientológia-egyház épületében, amikor egy csapat tizenéves randalírozva betört az oldalajtón, és súlyos károkat okozott az ingatlanban...

vasárnap 19:46

Az iPhone 17 és az iPhone Air: dizájn vagy teljesítmény?

Az Apple új okostelefon-párosával igazán nehéz melléfogni, akár a klasszikus funkcionalitás, akár a feltűnő dizájn vonz...

vasárnap 19:34

Az új memóriacsoda felrúgja a miniatürizálás szabályait

Tipikus eset, amikor a mobiltelefon túlmelegszik, az akkumulátor villámgyorsan lemerül, éppen a legrosszabb pillanatban...

vasárnap 19:24

A konzolélmény a zsebedben: kipróbáltuk a GameSir G8 Galileót

🕹 Érdemes megérteni, mennyire közel kerülhet a mobilos játékélmény a konzolos szinthez...

vasárnap 19:13

Az űrverseny új ásza: az AMD szembeszáll a bezárkózással

Az űriparban egyre nagyobb hangsúlyt kap a rugalmasság és a rendszerkompatibilitás, hiszen az űrbéli eszközöknek szigorú energia- és hőmérsékleti korlátokkal, időszakos földi kapcsolattal és rendkívül hosszú élettartammal kell számolniuk...

vasárnap 19:01

A kert háborúja: Plants vs. Zombies – teszt

Itt egy játék, amelynek a koncepciója egyszerű, de annál ellenállhatatlanabb: a kertedet meg kell védened az élőhalottak inváziójától, miközben szokatlan fegyvereid nem mások, mint a saját növényeid...

vasárnap 18:56

Az utolsó hajrá: mindjárt itt A testamentumok 7. része!

Agnes szemében végre megreped a Gileád által gondosan építgetett, rideg fal...

vasárnap 18:45

Az agy eleve tele van – váratlan fordulat a memóriakutatásban

Az emlékek és a térbeli tájékozódás szempontjából kulcsfontosságú agyi terület, a hippokampusz működése új megvilágítást kapott az osztrák ISTA kutatóinak friss eredményei nyomán...

vasárnap 18:34

Az új Wall Street: a blokklánc átírja a pénzpiacok szabályait

Mike Cagney neve sokaknak ismerős lehet a pénzügyi technológiák világában, de most új pályára állt: a blokklánc segítségével alakítaná át a Wall Street mélyrétegeit...

vasárnap 18:23

Az amerikai bizalom még mindig a bankoké, nem a kriptóé

Érdemes megvizsgálni, mennyire fogadta be az amerikai társadalom a kriptovalutákat, miközben azok eredetileg a hagyományos bankrendszer bukásaira adott válaszként jelentek meg...

vasárnap 15:02

Az óriáspatkány‑pánik hajtóvadászatot robbantott ki Idaho utcáin

Éjszakáról éjszakára Doug Perry és felesége kénytelenek voltak tűrni a patkányok kaparását és a kábelek rágcsálását, miközben próbáltak aludni...

vasárnap 14:56

Az égi tűzijáték visszatér: a Halley-üstökös hullócsillagai érkeznek

🌈 Május 5–6. éjszakáján érdemes lesz az eget kémlelni, hiszen ekkor tetőzik az Eta Aquaridák meteorraj...

vasárnap 14:45

Az MI korában ki védi meg az alkotókat?

Az utóbbi években komoly változásokat hozott a mesterséges intelligencia a szerzői jog világában...

vasárnap 14:35

Az utazóborotvák új királya: Laifen P3 Pro teszt

A Laifen P3 Pro forradalmi villanyborotva azoknak készült, akik saját tempójukban, egyszerűen, akár útközben szeretnének borotválkozni...

vasárnap 14:23

Az év meccse jön: Manchester United–Liverpool élőben, bárhonnan

A Premier League egyik legjobban várt összecsapásán két északnyugati nagyágyú találkozik az Old Traffordon, ahol a Manchester United egy BL-hely bebiztosításáért harcol...

vasárnap 13:12

Az új 32 GB RAM-követelmény: tényleg csak a pénztárcád bánja?

💸 Feltételezhető, hogy akik mostanában szeretnék fejleszteni gamer PC-jüket, nem lesznek boldogok a Microsoft legújabb közlése után: rövid időre ugyanis 32 GB RAM-ot ajánlottak a Windows 11-et használó játékosok számára, ha valaki zökkenőmentes élményre vágyik többfeladatos használat (pl...

vasárnap 13:02

Az a meghökkentő videojáték, amelyben tényleg fotózol

A Lushfoil Photography Sim egy igazi különlegesség: úgy élheted át a fotózás minden örömét, hogy közben ki sem kell mozdulnod a kanapéról...

vasárnap 12:56

Tényleg megéri az előfizetéses nyomtatás? Kipróbáltam a HP All-In-t

💸 A rendszeres nyomtatás sokunknak problémás, főleg, ha épp akkor fogy ki a festékpatron, amikor a legnagyobb szükség lenne rá...

vasárnap 12:45

A Sombrero-galaxist óriási, titokzatos fényudvar öleli körül

Felmerül a kérdés, hogy mennyivel több lehet a világegyetem, mint amit eddig láttunk – erre utal többek között az, hogy a chilei Cerro Tololo Obszervatóriumban működő, 570 megapixeles Dark Energy Camera most olyan részleteket mutatott meg a Sombrero-galaxisról (M104), amelyek korábban rejtve maradtak...

vasárnap 12:35

A női szamurájok nyomában: mítosz vagy kőkemény valóság?

🥋 A szamurájokról legtöbbször markáns férfiként készült ábrázolásokat látunk, akár múzeumokban, akár filmeken...

APP
vasárnap 09:11

APPok, Amik Ingyenesek MA, 5/3

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     BoobieTime Breastfeeding Timer (iPhone/iPad)A BoobieTime egy 2017-ben, az alapító első gyermekének megszületését követő hetekben létrejött, hasznos alkalmazás szoptató édesanyák számára...

vasárnap 08:29

Az új Dyson porszívó ördögi trükkje, amiért rajongani fogsz

💥 Megint feltűnik a régi mumus: teszteltem már a legtöbb Dyson porszívót, és bár egy ideje már nem ebből élek, még mindig követem, mit újít a márka...