2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 10:41

Indul a valaha volt leggyorsabb emberes űrküldetés

Az elmúlt ötven év legjelentősebb emberes űrmissziója újabb mérföldkőhöz érkezett, miután a NASA Artemis II rakétája a hétvégén eljutott a floridai Kennedy Űrközpont indítóállásához...

MA 10:33

A ChatGPT Go letarol: korlátlan GPT-5.2 csak 2990 forintért

🚀 A ChatGPT Go új frissítésének köszönhetően már tényleg megéri előfizetni: az OpenAI majdnem a duplájára emelte a használati korlátokat, ráadásul teljes hozzáférést ad a GPT-5...

MA 10:26

Az óriáshullámok hazája: Nazaré és a megdönthetetlen rekordok

2020 októberében a Landsat 8 műhold lélegzetelállító képet örökített meg Portugália nyugati partjainál: Nazaré közelében a 7 emeletnyi, vagyis 24 méteres hullámok tomboltak, erejükkel hatalmas víz alatti üledékfelhőket keltve...

MA 10:17

A mesterséges intelligencia forradalmasítja a magzati ultrahangot

A BioticsAI, amely 2023-ban megnyerte a Disrupt Csatatér (Disrupt Battlefield) versenyét, most FDA-engedélyt kapott mesterséges intelligenciával támogatott magzati ultrahang szoftverére...

MA 10:01

A bitcoin 33 millió alatt, az altcoinok tovább zuhannak

A kriptopiac kedden némileg stabilizálódott a hétfői, vámhírek miatt bekövetkezett megrázkódtatás után, de továbbra is óvatosság tapasztalható, főleg az altcoinok körében...

MA 09:49

A hamis reklámblokkoló összeomlasztja a böngészőt

⚠ Egy új, kifejezetten ártalmas reklámkampány terjed, amelyben egy hamis reklámblokkoló Chrome- és Edge-bővítményt, a NexShieldet terjesztik...

MA 09:41

Az alvó bitcoinbálna 30 milliárd forintot mozgat: felébred a piac?

Több mint 12 évnyi csend után egy régóta tétlen bitcoin-tárca tulajdonosa megmozdult, és 909 bitcoint – mai értéken több mint 30 milliárd forintot – utalt át egy új címre...

MA 09:34

Az emberiség valaha látott legélesebb pillantása a fekete lyuk peremére

👀 A James Webb űrteleszkóp a valaha készült legélesebb felvételt rögzítette egy fekete lyuk környékéről, mindössze 13 millió fényévre lévő Circinus-galaxis szívében...

MA 09:17

Az új szilikon sütőformák veszélyt jelenthetnek a májadra

A szilikon sütőformák népszerűsége nem véletlen: hajlékonyak és jól bírják a meleget...

MA 09:09

Az elszabadult MI-ügynökök: a biztonság nagy téten forog

⚠️ Mit tehet egy alkalmazott, ha a céges MI-ügynök hirtelen zsarolni kezdi?..

MA 09:01

Az első mini Sphere Marylandbe jön – indul a megújulás

🎫 A Las Vegasban bemutatott látványos Sphere interaktív szórakozóhely mintájára most Maryland is saját gömböt kaphat...

MA 08:58

Az első emberes holdküldetés 50 év után: új korszak, régi kihívások

A floridai Kennedy Űrközpontban hétvégén megkezdődött az emberes Hold-misszió, az Artemis II rakétájának indítóállásra gurítása...

MA 08:42

Az Asus elengedi a mobilokat, mindent az MI-re tesz

🤖 Érdemes megvizsgálni, miért döntött az Asus úgy, hogy határozatlan időre felfüggeszti okostelefonos üzletágát...

MA 08:33

Az agy titkos kapcsolója: új áttörés a mentális zavarok ellen?

A Johns Hopkins Egyetem kutatói váratlan felfedezésre jutottak az agy működésében: eddig passzívnak hitt fehérjék, az úgynevezett GluD-k (delta-típusú ionotróp glutamát receptorok) valójában aktív szereplők az idegsejtek közötti kommunikációban és kapcsolatok kialakításában...

MA 08:26

Íme a 27 éve mindent túlélő ragadozó féreg

Kevesen gondolnák, hogy a tengerekben élő zsinórférgek igazi matuzsálemek lehetnek. Az amerikai William & Mary Egyetem tengerbiológus oktatója, Jon Allen évek óta minden tanévet azzal kezd, hogy óvatosan kiválogatja a ragadozó tengeri csillagokat és anemónákat az akváriumból, majd előkeresi a közel egy méter hosszú zsinórférget, akit egyszerűen csak A Legidősebb Baseodiscus (Baseodiscus the Eldest) néven...

MA 08:18

A cápatámadások új hulláma rettegésben tartja Ausztrália partjait

🔻 Egy 39 éves szörföst mart mellkason egy cápa az ausztráliai Új-Dél-Wales északi partján, ezzel 48 órán belül már a negyedik cápatámadás történt a térségben...

MA 08:02

Az új Trump-tarifák felkavarhatják a Bitcoin árfolyamát

💸 A Bitcoin árfolyama hétfőn 93 000 dollár (kb. 33,8 millió forint) felett stabilizálódott, miután Donald Trump amerikai elnök új vámokat helyezett kilátásba Dániával és több európai országgal szemben – a Grönlanddal kapcsolatos vita miatt...

MA 07:58

Az M5-ös MacBook Pro a vártnál sokkal hamarabb befuthat

💻 A legerősebb MacBook Pro gépekre várók tavaly csalódhattak, hiszen az Apple kihagyta a nagyobb teljesítményű M4 Pro és M4 Max modellek frissítését...

MA 07:49

Az Intune-váltás mindent felkavarhat a mobilokon

Ma minden rendszergazda figyelmére szükség van, aki Microsoft Intune-nal menedzsel mobilokat, különben kritikus alkalmazások – akár a Microsoft sajátjai – is leállhatnak...