2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 14:03

Az évszázad legnagyobb biztonsági próbatétele: közeleg a gigászi világbajnokság

A 48 csapatos, 104 meccses futball-világbajnokság néhány nap múlva veszi kezdetét az Egyesült Államokban, Kanadában és Mexikóban, és ezúttal elképesztő méreteket ölt: az óriási tömegeken, a több országon és a rengeteg találkozón túl soha nem látott biztonsági együttműködést igényel...

MA 13:56

Az ősnaprendszer elveszett világából szakadt ez az afrikai meteorit?

🚀 Egy különleges meteoritot fedeztek fel a Szaharában, amelyről a legújabb kutatások szerint egy rég megsemmisült „protoplanéta” maradványa lehet...

MA 13:23

Az új BBC-sorozat: Tigrisek rejtett élete Nepál szívében

🐯 Erre jellemző példa, hogy a BBC ismét lélegzetelállító természetfilmet készített, ezúttal Tigris-sziget (Tiger Island) címmel...

MA 12:56

A Cobolli–Zverev RG-döntő: hol nézhető ingyen – tévécsatornák

A férfi francia nyílt teniszbajnokság 2026-os döntője már most sporttörténelmi pillanatnak ígérkezik, hiszen se Carlos Alcaraz, se Jannik Sinner nem jutott el idáig, így mind Flavio Cobolli, mind Alexander Zverev előtt hatalmas esély kínálkozik arra, hogy első Grand Slam-győzelmét ünnepelje...

MA 12:34

A 7 legjobb apák napi laptop – MacBooktól gamer gépig

💻 Egy új laptop igazi meglepetés lehet Apák napjára, főleg, ha a régi már nehezen bírja a tempót...

MA 12:22

Az ősi kínai orvoslás forradalmasíthatja a hajhullás kezelését?

Az androgenetikus alopecia a hajhullás leggyakoribb formája, férfiakat és nőket egyaránt sújt világszerte...

MA 11:24

Az olcsó kézi turmix, ami lehengerel: Cuisinart Power Blend teszt

🍹 Érdemes megvizsgálni, mit tud egy olcsó, mégis sokoldalú kézi turmixgép, ha igényed van gyors és rugalmas konyhai segítőre – főleg, ha a pénztárcádat sem akarod kiüríteni minden főzés előtt...

MA 10:46

A Tour Auvergne–Rhône-Alpes 2026: így nézheted ingyen

Immár 77 év után búcsút mondhatunk a Critérium du Dauphiné (teljes nevén Critérium du Dauphiné Libre) elnevezésnek, mivel az idei eseményt meglehetősen vitatott módon átkeresztelték Tour Auvergne – Rhône-Alpes-ra...

MA 10:29

Az ütésálló tablet projektorral – 8849 Tank Pad Ultra teszt

💻 Első ránézésre furcsa öszvér: egy igazi strapabíró tablet, amelybe a gyártó egy meglepően jól használható, beépített projektort épített...

MA 10:19

A véres új előzetes: a Halloween-játékban te lehetsz Michael Myers

Különösen igaz ez akkor, ha valaki egyedül szeretne vérfagyasztó élményekbe merülni, bármiféle online társ vagy versengés nélkül...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 6/7

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Lively Letters – Phonics (iPhone/iPad)Ez az alkalmazás megjelenése után villámgyorsan az App Store legnépszerűbb, fizetős oktatási szoftverévé vált...

MA 08:55

A Bloober Team Star Trek-horrorja készül – lesz okunk rettegni?

🖖 Jó példa erre, hogy a lengyel Bloober Team egy igazán szokatlan sci-fi projektbe vág bele: pszichológiai horrorjátékot fejleszt a Star Trek-univerzumban...

MA 08:46

A monacói pálya szélén: Kim Kardashian Hamiltonnak drukkol

Erre utal többek között az, hogy Kim Kardashian a Monacói Nagydíj hétvégéjén igazán mindent beleadott, és testvérével, Khloéval együtt jelent meg a Forma–1 egyik legfényűzőbb futamán...

MA 08:37

A Tigriskirály sztárja, Doc Antle felmentve, ítéleteit eltörölték

A Tigriskirály (Tiger King) című sorozat sokat emlegetett szereplője, Doc Antle hatalmas győzelmet aratott a bíróságon: a virginiai legfelsőbb bíróság ugyanis hatályon kívül helyezte az összes, az oroszlánkölykök vásárlásával kapcsolatos elmarasztaló ítéletet...

MA 08:28

Az első Survivaton hamarosan lelepleződik – új fejezet a Vampire Survivorsban

A Vampire Survivors készítője, Luca Galante hamarosan bemutat egy új mellékágat, amelyet saját ötlete alapján „Survivaton”-nak nevez...

MA 08:01

A legmenőbb tokok Kindle-ödre: stílus és védelem egyben

📚 Jellemző, hogy egy új Kindle Paperwhite vagy Colorsoft beszerzése után az első feladat a megfelelő védőtok kiválasztása...

MA 07:46

A mai Quordle rendesen feladta a leckét

Ma a Quordle igazán próbára tette a játékosokat: mind az öt angol magánhangzó szerepelt benne, ráadásul két ritka betűvel is trükközött...

MA 07:37

A Tribeca fesztiválon debütált Madonna sztárokkal teli rövidfilmje

🎬 Péntek este a Tribeca Fesztiválon Madonna legújabb rövidfilmje, a Vallomások II (Confessions II) debütált, de ez az esemény távol állt a hagyományos filmpremierek csendes ünneplésétől...

MA 07:19

A kriptók 390 milliárd dollárt égetnek, bitcoin és ether beszakad

💸 A digitális pénzek világa az elmúlt héten elképesztő veszteségeket szenvedett el...

MA 07:11

Az Exodus legújabb bemutatója még erősebb Mass Effect-érzetet kelt

🚀 Az Archetype Entertainment fejlesztésében készülő sci-fi akció-RPG, az Exodus a Future Games Show-n kapott látványos, bővített játékmenet-videót, amely minden eddiginél közelebbről mutatja be a játékot...

MA 07:02

A Khadas Tea Pro: vékony, stílusos, ütős fejhallgató-DAC iPhone-hoz és Androidhoz

A prémium hangzás világában a Khadas Tea Pro felfrissíti a mobil zenehallgatást, legyen szó iPhone-ról, Androidról vagy akár számítógépről...

MA 06:55

A Starbucks dobta az MI-t: kilenc hónap után vissza a kézi leltárhoz

☕ Kilenc hónappal a nagy bejelentés után a Starbucks teljesen visszavonja MI-alapú leltározó rendszerét az összes észak-amerikai üzletéből...

MA 06:46

Az újabb Meta-trükk: stabilcoin a fizetés, de a gond a tiéd

💸 Meta nemrég bejelentette, hogy Kolumbiában és a Fülöp-szigeteken indulva, majd év végéig több mint 160 országra kiterjesztve tartalomkészítőknek ezentúl USDC-ben (dollárhoz kötött stabilcoinban) fizet – jelentős lépés ez a digitális fizetőeszközök elterjedése szempontjából...

MA 06:37

A hőhullámok butítanak: az állatok agresszívebbek és ügyetlenebbek

🥵 Dél-Afrika perzselő hőségében a déli bütykös varangygerléknél furcsa változások figyelhetők meg: a madarak képtelenek helyesen gondolkodni, egyszerű feladatokat sem tudnak megoldani...

MA 06:28

A Süllyedő Város 2 túlélőhorror demója már játszható augusztusi megjelenés előtt

💀 Ilyen eset például, amikor egy túl ambiciózus horrorjátékot újragondolnak: az első A süllyedő város (The Sinking City) története kifulladt az óriási, de üresnek érződő nyitott világban...

MA 06:19

A Gothic fejlesztői figyelik a zárfeltörés-vihart, PC-s összeomlásokra javítást ígérnek hétfőre

🔒 Ez a jelenség jól illusztrálható azzal, hogy még a felújított Gothic sem lett könnyebb, és a játékosok ugyanúgy megszenvednek a zárfeltöréssel, mint annak idején...

MA 06:05

Történelmi események a mai napon (Június 7.)

Rendkívüli nap a történelemben: alkotmányos mérföldkő Angliában, fordulatok a francia és a közel-keleti hadszíntereken, és egy merész légicsapás, amely átírta a Közel-Kelet nukleáris térképét...

szombat 21:22

A looksmaxxing sötét oldala: férfiasságromboló mellékhatások

💀 Lényeges szempont, hogy az utóbbi időben egyre több fiatal férfi próbálja különböző extrém módszerekkel, például plasztikai beavatkozásokkal, hormoninjekciókkal vagy szélsőséges fogyókúrával javítani a külsejét...

szombat 21:12

A kriptópionír, aki 20 millió dollárból milliárdos alapot épített, duplázik bitcoinra

💰 Annak vizsgálata, hogy egy 20 millió dolláros családi befektetésből miként lehet felépíteni egy több mint 1 milliárd dolláros birodalmat a kriptovaluták világában...