2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

MA 17:32

Az irodai visszarendelés: valóság, vagy még mindig mítosz?

Az amerikai nagyvállalatok vezetői már jó ideje próbálják elhitetni, hogy a home office korszak véget ér...

MA 17:02

Az etikus hackerek 1,1 milliós szerverrel lepleztek 70 milliárd dolláros hibát

Felmerül a kérdés, mennyire biztonságosak a legújabb blokklánc-rendszerek, ha egy mindössze 1,1 millió forintos szerver is képes olyan súlyos hibát szimulálni, amely akár 25 ezermilliárd forint (70 milliárd USD) értékű kriptót sodorhatott volna veszélybe...

MA 16:32

Felejtsd el a Pixel 10a-t: ez az olcsó androidos telefon, ami kell

A mobilpiacon régóta a Google Pixel A-szériája számít alapvetésnek annak, aki kedvező áron szeretne prémium érzetű készüléket...

MA 15:31

Az újabb kamatemelés hidegzuhany: ugranak a lakáshitel-kamatok

Jelentős emelkedést tapasztalhatnak most azok, akik hitelt vennének fel vagy meglévő lakásukat refinanszíroznák...

MA 15:01

Az erkölcs diktálja: legyünk kevesebbet online

Az online jelenlét a mindennapok része, de kevesen tudunk szabadulni attól a tapasztalattól, hogy minél több időt töltünk a közösségi oldalakon, annál rosszabbul érezzük magunkat...

MA 14:31

A szuperintelligens űr-MI lehet a Fermi-paradoxon megoldása?

Ebből következően érdemes megvizsgálni, miért nem találkoztunk még fejlett földönkívüli civilizációkkal, noha éveken át vizsgáltuk az univerzumot...

MA 12:02

A D-Link G572: 5G-router, ha gyenge otthon a net

Az internetkapcsolat akadozása rendkívül bosszantó lehet – főleg, ha az otthoni vagy irodai munkád függ tőle...

MA 11:31

A Hubble vörös csillagbölcsőt örökített meg, sziporkázó kék és fehér csillagokkal

💫 A NASA Hubble-űrteleszkópja egyedülálló részletességgel mutatja be az univerzum egyik legaktívabb csillagbölcsőjét...

MA 11:01

Az univerzum a vásznon: elrajtol a tízéves kozmikus felmérés

🚀 Az év egyik legizgalmasabb tudományos fejleménye, hogy megkezdődött a Vera C...

MA 10:49

A CAPTCHA-knak befellegzett az MI korszakában?

🚧 Egy lényeges szempont, hogy amikor belépsz egy weboldalra, gyakran találkozol olyan feladatokkal, mint eltorzított szavak megfejtése, homályos képeken motorkerékpárok kiválasztása vagy annak igazolása, hogy nem vagy robot...

MA 10:38

Az EZVIZ EP4 a bérlők kedvence, de arcfelismerése hazatéréskor eláraszt riasztásokkal

👀 Bérlakásokban vagy társasházakban élők számára valódi kihívás lehet biztonsági kamerát vagy videós kapucsengőt felszerelni, hiszen nem fúrhatnak falat és nem okozhatnak semmilyen maradandó károsodást...

MA 10:25

A hét tudománya: James Webb új anyagot talál, Kína felzöldül, megoldott Medici-gyilkosság

Külön említést érdemel, hogy a James Webb-űrteleszkóp most először bukkant rá egy eddig nem észlelt anyagra a Plútó és a Titán légkörében...

MA 09:25

Az Egyesült Államok a szabályozatlan peptidek rabja: hatásosak egyáltalán, és biztonságosak?

💉 Felmerül a kérdés, hogy mennyire valóban hatékonyak, vagy akár biztonságosak azok a peptidkészítmények, amelyek jelenleg az egészségmegőrzés és a hosszú élet reményében terjednek az Egyesült Államokban...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 7/5

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Monthly Dystopia (iPhone/iPad)A Monthly Dystopia egy izgalmas túlélőjáték, amely George Orwell 1984 című klasszikusának világát idézi...

MA 09:01

Az okosóra és az MI korán kiszúrhatja a bajt

Lassan minden csuklón ott virít egy okosóra vagy okoskarkötő. Ezek már régóta nem csak a lépésszámot vagy a pulzust figyelik: a korszerű modellek alvást, bőrhőmérsékletet, légzésszámot, véroxigént, szívritmus-változékonyságot is képesek mérni, sőt, akár arra is riasztanak, ha valami baljós jelet érzékelnek...

MA 08:49

A NASA mentőakciója elindult a zuhanó Swiftért

🚀 Érdemes megérteni, hogy a NASA új, különleges mentőakcióba kezdett: egy robotűrszondával igyekszik megmenteni az évtizedek óta szolgáló, és most veszélyesen zuhanó Neil Gehrels Swift Obszervatóriumot (Neil Gehrels Swift Observatory)...

MA 08:13

Az ősi marsi kőzet szénben dúskál – hogy miért, rejtély

🪐 Amikor először egy marsi kőzet felszínén összetett szerves szén jelenlétét észlelték, a tudósok hirtelen egy régóta húzódó kérdés kapujában találták magukat: vajon élet nyomait találtuk meg, vagy valami egészen más magyarázat rejtőzik a színfalak mögött?..

MA 08:01

A hőhullám közepén 842 ezer amerikai háztartás maradt áram nélkül

Fontos kérdés, mennyire bírja az Egyesült Államok infrastruktúrája a tomboló hőhullámot...

MA 07:49

A Google AI-tanulókísérlete olyan, mint egy karcsúsított NotebookLM

A Google eddig is számtalan MI-eszközt kínált a tanulni vágyóknak. A NotebookLM például képes feldolgozni és kreatívan átalakítani az általad feltöltött forrásokat – gondolj csak podcastokra vagy gondolattérképekre...

MA 07:37

Az USA 250. születésnapja próbára teszi az MI-vezérelt kollektív intelligenciát

Érdekes felvetés, hogy mi történne, ha 250 véletlenszerűen kiválasztott embert összehívnánk, hogy megvitassanak egy fontos kérdést: vajon milyen eredményt adna, ha egy közös kihívást kellene megoldaniuk?..

MA 07:25

A JadePuffer MI-ügynöke teljesen automatizált egy zsarolóvírus-támadást

Fontos kérdés, mire képesek a legújabb technológiák, ha rossz kezekbe kerülnek: a kutatók most először bukkantak olyan zsarolóvírusra, amelyben minden lépést egy önálló, nagyméretű nyelvi modell vezérelt...

MA 07:01

A világbajnokság helyszínein több mint 600 drónt foglalt le az FBI

🛡 Az FBI június 11-e óta folyamatosan figyeli a FIFA-világbajnokság helyszíneit és környékét, mióta rengeteg drónt kaptak el olyan légterekben, ahol repülni szigorúan tilos...

MA 06:49

Amikor cserbenhagy a szaglás: az illatok nélküli mindennapok

😫 Negyvenévesen Chrissi Kelly egyszer csak elvesztette a szaglását, miután egy vírusos betegség ledöntötte a lábáról Csehországban tett családi látogatása után...

MA 06:24

A NASA egy évre teljesen elzárja az önkénteseket a külvilágtól

Aki már kezd belefáradni a földi forgatagba, annak új lehetőség nyílik: a NASA önkénteseket keres, hogy egy teljes évet töltsenek elszigetelve, mintha egy másik égitestre készülnének...

MA 06:05

Történelmi események a mai napon (Július 5.)

Ma olyan nap, amikor hidak nyílnak, birodalmak csapnak össze, országok születnek, és a popkultúra is történelmet ír...

szombat 18:32

A másolás–beillesztéses átverés, ami átveheti az irányítást a Mac-ed felett

🔑 Első pillantásra úgy tűnt, hogy egy egyszerű műveletet kérnek: másold be ezt a parancsot a Mac-ed parancssorába, aztán megoldódik a problémád...

szombat 18:02

Az öt Android-mobil, amit a Moto G Power helyett vegyél

📱 Külön említést érdemel, hogy a középkategóriás okostelefonok kínálata soha nem volt ennyire izgalmas...

szombat 17:31

A Midjourney visszavág: a bíróságon valljanak MI-használatukról a stúdiók

🛠 A Midjourney szembeszállt a nagy hollywoodi stúdiókkal, miután azok tavaly beperelték szerzői jogsértés miatt, mert az MI-alapú képalkotó rendszer képes Supermanről, Batmanről és más híres karakterekről képeket generálni...

szombat 17:01

A Webb-űrtávcső felforgatja a világegyetemről alkotott képünket

Ha a kozmikus rejtélyek foglalkoztatnak, érdemes a James Webb-űrtávcső (JWST) képeire vetni egy pillantást...