2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 21:57

Itt a beépített videóhívás: forradalom az üzenetküldésben

📺 Az SMS világa évek óta lemaradásban van az olyan modern alkalmazásokhoz képest, mint a WhatsApp vagy az iMessage, ahol könnyedén lehet váltani szöveges üzenetküldésről hívásra, és a formázási lehetőségek is jóval szabadabbak...

MA 21:46

Az MI forradalmasítja a matekot: közeleg a gépi bizonyítás kora?

🧠 Külön említést érdemel, hogy egyre közelebb kerül a tudomány ahhoz, hogy matematikai bizonyításokat gépekkel ellenőrizzenek, garantálva ezzel azok helyességét...

MA 21:23

Az EU górcső alá veszi a Snapchat gyerekvédelmi hibáit

🔍 Az Európai Unió hivatalos vizsgálatot indított a Snapchat működése kapcsán, mert felmerült a gyanú, hogy a platform nem tesz eleget a kiskorúak védelméért...

MA 21:15

Az Intel Core Ultra 270K és 250K Plus jók, csak minden drága

Különösen igaz ez akkor, ha új gép építésén vagy fejlesztésén gondolkodsz: ma már nem elég egy jó ár-értékű processzort találni, hiszen a memória-, SSD- és videokártya-árak miatt minden PC-alkatrész nehezen elérhető „jó vétel”...

MA 20:25

Az új Wi‑Fi 7 routerekbe tényleg megéri beruházni?

Például nemrég még felesleges pénzkidobásnak tartottam a Wi‑Fi 7 routerek beszerzését: túl drágák voltak, ráadásul csupán marketingfogásnak tűntek...

MA 20:12

Az északi-sarki jégolvadás újabb ijesztő csúcsot döntött

🔥 Az északi-sarki tengeri jégtakaró idén ismét történelmi mélypontra zsugorodott, miután a téli növekedési időszak végén mindössze 14,29 millió km²-re terjedt ki...

MA 20:01

A Pentagon új titkos fegyvere: az Xbox-kontroller

🕹 Az amerikai hadsereg legújabb csúcstechnológiás lézerfegyverei mögött egy egészen meglepő titok rejtőzik: nem más, mint a jól ismert Xbox-kontroller...

MA 19:56

Az antiprotonok megindulnak: történelmi áttörés a CERN-ben

A CERN kutatói történelmi bravúrt hajtottak végre: először sikerült teherautón szállítaniuk egy antiprotonfelhőt...

MA 19:44

A kínai AI-bizniszben ragadnak a Manus vezetői, miközben a Meta kaszál

Van itt egy kis kavar a kínai AI-szcénában! A Manus nevű, mesterséges intelligenciával foglalkozó startup Kínában indult, de tavaly áthelyezte bázisát és fő csapatát Szingapúrba...

MA 19:34

Az új Meta-csomag tényleg megkönnyíti a vállalkozók életét?

💼 Érdekes fejlemény, hogy a Meta nagyszabású újítással igyekszik fellendíteni a kisvállalkozói szférát, miközben a mesterséges intelligencia térnyerése meghatározza az üzleti világ jövőját...

MA 19:25

Az Intercom új MI-je letarolja az ügyfélszolgálati piacot

Felmerül a kérdés, hogy egy 15 éves, alapvetően ügyfélszolgálati platform hogyan tudja megelőzni a legnagyobb MI-óriásokat – mégis pontosan ezt állítja most az Intercom...

MA 17:57

A Hold rejtett árnyéka pajzsként védhet az űrsugárzás ellen

A Hold felszínén eddig ismeretlen, kozmikus sugárzástól védett „üregre” bukkantak a kínai Chang’e–4 szonda adatai alapján...

MA 17:47

A Mistral MI nagy dobása: ingyen adja hanggenerátorát

🎧 Az MI-alapú hangmegoldások piaca forrong, és mindenki az aranytojást tojó tyúkot keresi a vállalati ügyfelekért vívott harcban...

MA 17:34

Az iPhone-okra vadászó Coruna-kémszoftver még veszélyesebb lett

Az iOS-t futtató eszközökre leselkedő veszélyek új szintre léptek: a Coruna nevű exploitkeretrendszer a korábbi, hírhedtté vált Operation Triangulation továbbfejlesztett változata, amely már az Apple legújabb A17 és M3 processzorait, valamint az iOS 17...

MA 17:24

Az online csalók új csapdái: így védekezz most

Az online csalások ma már profi váltófutásra emlékeztetnek: különböző eszközök és szereplők alkotnak egy szövevényes láncot, amelyben mindenki a saját szakaszára specializálódott...

MA 17:13

A biztonság rémálma: közeleg a kvantumszámítógépek kora?

A digitális világban egyre többen tartanak attól, hogy az MI önállósodása alapjaiban forgathatja fel a társadalmat...

MA 17:01

A TikTokon tarol az új csaláshullám: üzleti fiókok a célpontok

💸 TikTok Business-fiókok estek visszaélések célpontjává egy új, kifinomult adathalász-támadásban. Az elkövetők olyan hamis weboldalakra csábítják az áldozatokat, amelyeket kifejezetten azért hoztak létre, hogy a biztonsági botok ne tudják felismerni őket...

MA 16:57

Az űrtávcsövet egy robot mentheti meg a pusztulástól

A NASA Neil Gehrels Swift Obszervatórium lassan végzetes pályát fut be...

MA 16:45

A deepfake röntgenek még az orvosokat is megtévesztik

Érdemes megvizsgálni, hogy milyen veszélyeket rejtenek a mesterségesen generált, úgynevezett deepfake-röntgenfelvételek, amelyek megtévesztően valósághűek – olyannyira, hogy még képzett radiológusok számára is szinte lehetetlen felismerni a hamisítványokat...

MA 16:34

Az agy titkos védőszelepe: áttörés a Parkinson-kutatásban

Az emberi sejtek védekezőképessége mindig is lenyűgözte a kutatókat, most pedig egy újabb titok lepleződött le, amely segíthet a Parkinson-kór leküzdésében...

MA 14:04

Az Avata 360: drónforradalom, vagy csak pörgünk körbe-körbe?

🚀 A DJI legfrissebb dobása, az Avata 360 drón nemcsak a panorámadrónozás világát forgatja fel, hanem az otthoni filmezés, vlogolás és kalandvideók piacát is...

MA 13:57

Az Intel Battlemage végre megérkezett, de a játékosok csalódhatnak

Az Intel hosszú várakozás után bemutatta új grafikus kártyáját, az Arc Pro B70-et, amely a régóta pletykált Big Battlemage GPU-ra épül, ám ezúttal nem a játékosokat, hanem az MI-alkalmazásokat célozza meg...

MA 13:45

Az Uber robotaxijai megrohanják Horvátországot – kínai technikával

Zágráb utcáira érkezik az Uber és a kínai Pony.ai közös robotaxi-szolgáltatása, amelyet egy horvát cég, a Verne fog össze – ők gondoskodnak a teljes működési rendszer kiépítéséről...

MA 13:23

Az Exynos 2800: végre tanult a hibáiból a Samsung?

Érdemes megvizsgálni, milyen változások várhatók a Samsung következő generációs mobilchipjénél. Az Exynos 2800 koncepciója mostanra körvonalazódik, és úgy tűnik, a vállalat ezúttal a stabilitást helyezi előtérbe a Galaxy S28 szériánál...

MA 12:01

Az új PolyShell-támadás a Magento-áruházak felét fenyegeti

Fontos megérteni, hogy az utóbbi napokban tömeges támadássorozat indult a Magento Open Source és az Adobe Commerce rendszereket érintő, súlyos PolyShell-sebezhetőség kihasználására...

MA 11:56

Az MI megeszi az adatközpontok akkumulátorait – új korszakot nyit a Panasonic

A nagy memóriagyártók már minden idei moduljukat eladták, így hiányok és áremelkedések alakultak ki a piacon...

MA 11:45

Az új Razer Blade 16: karcsú, brutális és piszkosul drága

A Razer legújabb, 16 hüvelykes laptopja látványos hardverfrissítéssel érkezik: az Intel vadonatúj Core Ultra lapkáival és ultragyors, 9600 MHz-es LPDDR5X memóriával kapható, legalább 32 GB-tal szerelve...

MA 11:34

Az új Galaxy A57 végre könnyebben javítható

🔧 A Samsung Galaxy A57 5G-t már a bemutató előtt, néhány órával szét is szedték, és ami a leginkább feltűnő: a telefont végre a könnyű javíthatóság jegyében tervezték...

MA 11:12

A techóriások pórul jártak: kétmilliárdos bírság a közösségi oldalaknak

💸 Egy amerikai esküdtszék történelmi döntése értelmében a Meta és a YouTube összesen 6 millió dollár (közel 2,2 milliárd forint) kártérítést köteles fizetni egy ma 20 éves fiatal nőnek és édesanyjának...