2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 15:57

Az igazság a légtisztítókról: Megvéd-e az azbeszttől?

Néhány héttel az első otthonunkba költözés után váratlan dolog történt: kiderült, hogy az épület egyes részei azbesztet tartalmaznak...

MA 15:45

Az év nyertesei: lekötött betétek akár 4,05% hozammal

Sokan keresik a biztos, kiszámítható megtakarítási lehetőségeket, és a lekötött betétek (CD, azaz Certificate of Deposit) továbbra is stabil megoldást jelentenek...

MA 15:23

Az új Marvel Rivals: anime-akció, zombi Thor és Doombotok?

Most figyeljetek: a Marvel Rivals nemcsak egy fura, szuperhősös lövölde, amelyben már egy cápa is szerepel, hanem egyre több mindenné próbál válni...

MA 15:02

Az Ultra végre megéri: a Galaxy S26 nagy dobása

Érdemes látni, hogy az idei Galaxy S26 Ultra nem egyszerűen a méretével próbál hódítani, hanem valódi, kézzel fogható előnyökkel igyekszik igazolni a magasabb árcédulát...

MA 14:56

Az iPhone titkos járatkövetője, ami nélkül ne indulj útnak

Az utazás stresszét jelentősen csökkentheti, ha mindig pontosan tudod, merre jár a repülőd, mennyit késik, vagy melyik kapunál kell várnod a beszállásra...

MA 14:45

Az etetőkamerád árthat a madaraknak? Így védd meg őket!

🐡 Ilyen eset például, ha nagy örömmel figyeled a kert madarait az etetőkamerán keresztül, de valójában azzal, hogy eteted őket, akár súlyos veszélynek is kiteheted a szárnyasokat, főleg a meleg hónapokban...

MA 14:36

A gazdagodó amerikai középosztály miért érzi magát mégis szegénynek?

Az amerikai életforma 2026-ban egészen furcsa érzést ad azoknak, akik anyagilag sikeresek lettek...

MA 14:24

Az MI-lufi leplezi hanyatlásunkat és a vészes erőforráshiányt

💥 Jeremy Grantham, a befektetési világ egyik legismertebb látnoka, már évtizedek óta figyelmeztet a piacok kockázatos túlértékeltségére, de újabban egészen más, egzisztenciális gondokat lát a háttérben...

MA 13:56

Az animeipart felforgatja az MI-botrány

😱 Az animeipar most először kénytelen szembesülni egy komoly MI-botránnyal. A WIT Studio, amely olyan népszerű sorozatokat jegyez, mint a Támadás a Titánok ellen (Attack on Titan) és az Egy könyvmoly felemelkedése (Ascendance of a Bookworm), élesen kritizálták a rajongók az utóbbi sorozat nyitójelenetének elkészítésében használt generatív MI miatt...

MA 13:46

Az MI-háború: túl nagy falat a nyilvánosságnak?

Ez a jelenség jól illusztrálható azzal, hogy az Anthropic, egy feltörekvő MI-vállalat a Szilícium-völgyből, nemrég bejelentette: olyan MI-modellt fejlesztett, amely már túl veszélyes a nagyközönség számára, ezért nem hozzák nyilvánosságra...

MA 13:34

Az Apple frissítése kizárta a cseh billentyűzetes iPhone-okat

Egy amerikai egyetemi hallgató számára a különleges kódja miatt lehetetlenné vált feloldani az iPhone-ját, miután az Apple egy karaktert eltávolított a cseh billentyűzetről...

MA 13:12

A Google Pixel 10 meglepően középszerű teljesítményt nyújt

🙂 A Xiaomi 17 Ultra és a Google Pixel 10 Pro XL egymás mellett állva látványosan kirajzolja, mennyire lemaradt a Google legújabb csúcstelefonja...

MA 12:34

A legmenőbb kütyük nagy tesztje: ASUS, Apple, Sonos, LG

Fontos kérdés, melyik új eszköz éri meg igazán a pénzét. Most megmutatjuk, hogyan teljesít az ASUS ZenBook A16, az Apple AirPods Max 2, a Sonos Play hangszóró és az LG Sound Suite házimozi-rendszer a gyakorlatban – plusz pár extra eszköz is bekerült a körképbe...

MA 12:23

A rezsim ára: Észak-Korea kriptólopásai a túlélésért

💸 Észak-Korea nemrég újabb súlyos csapást mért a kriptoiparra: milliárdos nagyságrendű lopások rázták meg a piacot, amely amúgy is szenved a korábbi botrányok miatt...

MA 11:34

Az IBM 6 milliárdos DEI-botrányban: Mi változik most?

Közel 6,3 milliárd forintot fizet az IBM az amerikai igazságügyi minisztériumnak, hogy rendezze a személyi kiválasztáshoz kötődő, jogsértő DEI (esélyegyenlőségi és sokszínűségi) gyakorlatok miatt indult pert...

MA 11:23

Az eladók kifulladnak, a Bitcoin agresszíven vásárol

Most kapaszkodj, mert a Bitcoin lerázza magáról az eladási stresszt: miután február 5-én 60 000 dollár közelében elérte a mélypontját, folyamatos emelkedésbe kezdett, és most komótosan közelít a 70 000 dolláros (kb...

MA 10:29

A hiányzó Google Naptár-trükk, ami megoldja az időzóna-káoszt

Képzeld el, hogy találkozót kell szervezned portlandi, tokiói és sydney-i ismerőseiddel...

MA 10:22

A világegyetem túl gyorsan tágul – és senki sem tudja, miért

💫 Az univerzum tágulásának ütemét minden eddiginél pontosabban sikerült meghatározni, ám ezzel a rejtély csak még bonyolultabbá vált...

MA 10:15

A Mars poklát is túléli az élet – élesztőgombák bizonyítják

👽 A Mars zord és kíméletlen környezetéhez bármilyen életnek alkalmazkodnia kellene, legyen szó a múltról, a jelenről vagy a jövőről...

MA 10:02

A nyílt forráskód visszavág: az ellátási láncok új rémálma

⚠ Márciusban két, egymástól teljesen független támadó mérgezte meg a legsikeresebb nyílt forráskódú eszközöket, amivel tízezernél is több szervezet titkai kerültek veszélybe – a teljes hatás csak hónapok múlva derül majd ki...

MA 09:57

Az öregedés visszafordítása: küszöbön a sejtreprogramozás emberkísérlete

A laborban minden tekintet Yuancheng Ryan Lu-ra szegeződött, miközben kollégája a mikroszkóp fókuszán igazított...

MA 09:36

Az orrunk évekkel a tünetek előtt jelzi az Alzheimert

A szaglás elvesztése nemcsak bosszantó öregkori tünet, hanem akár az Alzheimer-kór első, alig észrevehető előjele is lehet...

MA 09:29

Az aranykorszaknak befellegzett: zuhan a kriptotőzsdék nyeresége

A tőzsdéken egykor uralkodó kriptóláz mára alábbhagyott, a vezető piaci szereplők drasztikus visszaesésre készülnek...

MA 09:14

Az űripar hullámvasútján a SpaceX a bitcoinra fogad, veszteség ellenére

Elon Musk vállalata, a SpaceX jelenleg 8 285 bitcoint tart, ez nagyjából 603 millió forintnak megfelelő összeg, amelyeket a Coinbase Prime-nál őriz...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 4/12

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Greeny Word Journey (iPhone/iPad)A Greeny Word Journey egy nyugtató és szórakoztató szókirakó játék, amely segíti az agy tornáztatását és a szókincs fejlesztését...

MA 08:57

Az ingatlanpiac nagy fordulata: újra alkuképesek a lakások?

Az amerikai ingatlanpiac sokak számára még mindig egy rémálom, hiszen a kínálat ugyan bővül, de a legtöbb városban még mindig kevesebb az eladó lakás, mint a járvány előtti, 2019-es szinten...

MA 08:51

Az MI reményt ad a ritka betegségekkel élő családoknak

Egy ritka genetikai rendellenesség diagnózisa sok család előtt komoly akadályokat állít, hiszen gyakran alig találni információt, nincsenek bejáratott kezelések, és nincs támogatói hálózat...

MA 08:42

Az első Tesla-önvezető szoftver végre átszeli Európát – óvatosan

A Tesla Full Self-Driving (Supervised) rendszere most először kapott engedélyt Európában, méghozzá Hollandiában...

MA 08:29

A bitcoin gyengélkedése az XRP-t is a mélybe rántja

Megemlíthető, hogy az XRP ára hirtelen esett vissza 1,36 dollárról 1,33 dollárra, mindössze néhány perc alatt...