2024. 12. 22., 18:58

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ

Az OpenAI O3 és O3-mini Modelljei Átgondolnak Minden Választ
Pénteken, az "OpenAI-val töltött 12 nap" nevet viselő programsorozat utolsó napján Sam Altman, az OpenAI vezérigazgatója bejelentette legújabb mesterséges intelligencia "érvelési" modelljeit, az o3-at és az o3-mini-t. Ezek az év elején indított o1 modellek továbbfejlesztett változatai. A vállalat egyelőre nem tervezi azonnali kiadásukat, de már most elérhetővé teszi a modelleket biztonsági tesztelésre és kutatási célokra.
Az új modellek az OpenAI által "private chain of thought"-nak (privát gondolatmenet-lánc) nevezett technológiát használják, amelyben a modell megáll, átgondolja belső folyamatait és előre tervez, mielőtt válaszolna. Ezt "simulated reasoning"-nek (szimulált érvelés, SR) nevezzük, ami az MI egy olyan formája, amely túlmutat az alapszintű nagy nyelvi modelleken (LLM).

Új név és rekordteljesítmény

Az információk alapján az OpenAI az “o3” nevet választotta a modellcsaládnak az “o2” helyett, hogy elkerülje a potenciális védjegyjogi konfliktusokat a brit távközlési szolgáltatóval, az O2-vel. A pénteki élő közvetítés során Altman elismerte cégének névadási hibáit, és így fogalmazott: “Az OpenAI valóban nagyon rossz a névadásban, ezért o3-nak nevezzük.”

Az OpenAI szerint az o3 modell rekordot döntött az ARC-AGI mércén, egy vizuális érvelési teszten, amely 2019-es létrehozása óta veretlen volt. Alacsony számítási kapacitású forgatókönyvekben az o3 75,7%-ot ért el, míg magas számítási kapacitás mellett 87,5%-ot – ezzel elérve az emberi teljesítményhez közeli 85%-os küszöböt.

Kiemelkedő eredmények különböző teszteken

Az OpenAI arról is beszámolt, hogy az o3 96,7%-ot ért el a 2024-es American Invitational Mathematics Examinationon (Amerikai Meghívásos Matematikai Vizsgán), mindössze egy kérdést hibázva el. A modell emellett 87,7%-ot ért el a GPQA Diamond teszten, amely posztgraduális szintű biológia, fizika és kémia kérdéseket tartalmaz. Az EpochAI által készített Frontier Math mércén az o3 a feladatok 25,2%-át oldotta meg, míg más modellek nem haladták meg a 2%-ot.

Az élő közvetítés során az ARC Prize Foundation elnöke így nyilatkozott: “Amikor látom ezeket az eredményeket, át kell értékelnem a világképemet arról, hogy mire képes az MI.”

Az o3-mini változatot, amelyet szintén pénteken jelentettek be, adaptív gondolkodási idő funkcióval látták el, amely alacsony, közepes és magas feldolgozási sebességet kínál. A vállalat szerint a magasabb számítási beállítások jobb eredményeket hoznak. Az OpenAI beszámolt arról, hogy az o3-mini felülmúlja elődjét, az o1-et a Codeforces teszten.

A „simulated reasoning” térnyerése

Az OpenAI bejelentése akkor érkezett, amikor más vállalatok is kifejlesztik saját SR modelljeiket. Ilyen például a Google, amely csütörtökön bejelentette a Gemini 2.0 Flash Thinking Experimental-t (Villám Gondolkodás Kísérleti Verzió). Novemberben a DeepSeek elindította a DeepSeek-R1-et, míg az Alibaba Qwen csapata kiadta a QwQ-t, amit az első “nyílt” alternatívának neveztek az o1-hez képest.

Ezek az új MI modellek a hagyományos LLM-eken alapulnak, de egy csavarral: finomhangolták őket, hogy egyfajta iteratív gondolatmenet-láncot hozzanak létre, ami szinte brutális erővel, futásidőben skálázható módon szimulálja az érvelést. Nem a mesterséges intelligencia modell képzése során próbálnak fejlesztéseket elérni – amelyek az utóbbi időben csökkenő hozamokat mutattak –, hanem a futásidőben alkalmazott technikákkal érnek el jobb teljesítményt.

Az OpenAI először biztonsági kutatók számára teszi elérhetővé az új SR modelleket tesztelési célból. Altman elmondta, hogy a vállalat az o3-mini-t január végén tervezi elindítani, és nem sokkal később követi majd az o3 is.

Legfrissebb posztok

csütörtök 21:35

Az új DeFi-botrány tovább tépázza az intézményi bizalmat

A decentralizált pénzügyi rendszereket (DeFi) újabb hatalmas támadás rázta meg: a KelpDAO esetében néhány nap alatt mintegy 20 milliárd dollárnyi (kb...

csütörtök 21:23

Az újabb Vercel-adatlopás több fiókot is érint

Ez a jelenség jól illusztrálható azzal, hogy a Vercel fejlesztői platform adatvédelmi incidense jóval súlyosabbnak bizonyult a kezdeti becsléseknél...

csütörtök 21:12

Az első agyi párbeszéd: mesterséges és valódi idegsejtek összekapcsolódnak

Egészen új korszak nyílhat az agyi technológiákban és az MI-számítógépekben, miután mérnököknek sikerült mesterséges idegsejteket kifejleszteniük, amelyek képesek kommunikálni valódi agysejtekkel...

csütörtök 20:56

A Coachella igazi sztárja: Justin Bieber óriásszivarja

🚬 Képzeld el: Justin Bieber két forró Coachella-fellépése után Los Angelesben ünnepel, egy szusi vacsora és baráti társaságban...

csütörtök 20:45

A kedvenc játékaidat már az MI mozgatja – és észre sem veszed

Felmerül a kérdés, hogy mennyire szövi át az MI a játékfejlesztést, miközben a játékipar éppen nehéz időszakát éli, és a fejlesztők és a játékosok is aggódva figyelik a változásokat...

csütörtök 20:23

Az év legdrámaibb űrpillanata: üstökös és meteor csap össze egy vár felett

🚀 Többek között egészen különleges pillanatot örökített meg két szerencsés fotós a csehországi Kutná Hora várromai felett...

csütörtök 20:11

A kvantumveszély közeleg: így védhető meg 1,7 millió bitcoin

⚠ Többek között a kvantumszámítógépek rohamos fejlődése miatt újra felmerült a kérdés: tényleg összeomlik a bitcoin, ha egy nap feltörhetővé válnak a régi, sebezhető címek?..

csütörtök 20:01

Az éj, amikor vámpírok és poénok elszabadulnak – TMZ Comedy Crawl

🎃 A Hollywood Improvban indult az este, ahol már a kezdetektől ingyen italokkal melegítették be a társaságot...

csütörtök 19:45

A kriptó lett a gépek bankja – az MI fizet

💰 Az elmúlt egy évben elképesztő ütemben terjedtek el az MI-ügynökök, amelyek nem csupán tanácsadói feladatokat, hanem valós pénzügyi tranzakciókat is végrehajtanak...

csütörtök 19:34

Az árnyékbankként működő kriptotőzsdék rejtett veszélyei

A kriptotőzsdék egyre inkább olyan szolgáltatásokat kínálnak, amelyek hasonlítanak a hagyományos banki termékekre, például kölcsönökre és hozamot ígérő konstrukciókra...

csütörtök 19:23

Az óriás médiaegyesülés: elkel a Warner Bros., megnyirbálják a vezér fizetését

Szerdán reggel virtuális közgyűlésen döntöttek a részvényesek: zöld utat adtak a Warner Bros...

csütörtök 19:12

Az Artemis II hőpajzsa sikerrel vette a tűzpróbát

A 2024. április 10-i sikeres visszatérés után az Artemis II hőpajzsa makulátlanul teljesített: az Orion űrkapszula vízreszállása után az amerikai haditengerészet búvárai különleges víz alatti fotót készítettek a jármű aljáról, amelyen jól látható, hogy a hőpajzs szinte érintetlen maradt...

csütörtök 19:01

Az MI-ügynökök összedolgoznak: megérkezett a BAND nagy dobása

Különösen igaz ez akkor, ha egy vállalat egyszerre több MI-ügynököt alkalmaz, amelyek egymással is kommunikálnak...

csütörtök 18:56

A szuperidősek titka: így marad éles az agy idősen

Több mint 25 éve kutatják a Northwestern Medicine szakemberei azokat a 80 év feletti embereket, akik szinte fiatalos szellemi frissességet őriztek meg idős korukra...

csütörtök 18:45

A mesterséges intelligencia új fizikai törvényeket fedezett fel a plazmában

A fizikusok mérföldkőhöz érkeztek: saját fejlesztésű neurális hálózatuk segítségével korábban ismeretlen részleteket tártak fel a részecskék kölcsönhatásáról az úgynevezett porplazmában...

csütörtök 18:34

Az újabb Tether-blokád: 120 milliárdot tiltott pénzek miatt fagyasztottak

A Tether mintegy 344 millió dollárnyi (közel 120 milliárd forint) USDT-t fagyasztott be a Tron-blokkláncon két pénztárcában, miután amerikai hatósági megkeresés nyomán felmerült a gyanú, hogy a digitális pénzek tiltott tevékenységhez kapcsolódnak...

csütörtök 18:23

Az űripar új ütőkártyája: a SpaceX saját GPU-t épít

🚀 Érdekes felvetés, hogy Elon Musk cégbirodalma már nemcsak rakétákkal és MI-kutatással, hanem saját grafikus processzorokkal is próbálkozik...

csütörtök 17:56

Az új WoW-frissítés teljes káoszt hozott: hibák özöne

A World of Warcraft legutóbbi, 12.0.5-ös frissítése minden eddiginél több hibát hozott magával, amelyek a játékosok kedvét is alaposan elveszik...

csütörtök 17:34

Az új Kötelesség hívása-film felforgatja a Yellowstone-univerzumot

🎬 Taylor Sheridan íróként és Pete Berg rendezőként érkezik a Kötelesség hívása (Call of Duty) filmhez, amelynek bemutatóját 2028...

csütörtök 17:23

Az egyiptomi múmia gyomrában bukkantak rá az Íliász egy darabjára

🗡 Erre utal többek között az, hogy régészek Egyiptomban egy római kori múmia hasüregében Homérosz Iliászának (The Iliad) papiruszára bukkantak...

csütörtök 16:56

A Fragmentary Order: fájdalom, kihívás, véres mámor – nem az Arc Raiders

Még mindig sokan szeretik azt az izgalmat, amit csak egy igazi, keményvonalas extraction shooter képes adni, és Nikita Buyanov, a legendás Tarkov atyja ezt most keményen az arcunkba is tolja a Fragmentary Orderrel...

csütörtök 16:45

Az új bélflóra-helyreállítás megelőzheti a visszahízást Ozempic után

Az elhízás elleni szerek, mint az Ozempic és a semaglutid segítségével sokan jelentős súlytól szabadulnak meg, ám a legtöbben a kezelés abbahagyását követően rövid idő alatt visszahíznak...

csütörtök 16:34

Az új Framework 13 Pro akkuidőben mindenkit leiskoláz

💻 A hordozható gamer gépeken dolgozók életét gyakran keseríti meg a lemerülő akkumulátor réme, de most úgy tűnik, új időszámítás kezdődhet: a Framework 13 Pro meglepően hosszú üzemidőt nyújt...

csütörtök 16:23

A Marson tényleg óriási „sárkánypikkelyek” hullámzanak a felszínen?

🐳 A NASA Curiosity marsjárója olyan furcsa, óriási, sokszög alakú képződményeket fotózott a vörös bolygón, amelyek első pillantásra leginkább hatalmas, fosszilis hüllőpikkelyekre emlékeztetnek...

csütörtök 16:12

Az öt legjobb ok, hogy most vegyél ventilátort – ne várj a kánikuláig

👀 Ahogy beköszönt a jó idő, hirtelen megemelkedik a hőmérséklet, sorra lobban fel a grillek lángja, és egy szempillantás alatt elkapkodják a boltokban a ventilátorokat...

csütörtök 16:02

A DJI Lito X1 lett a belépő drónok új királya

🚁 A DJI új Lito sorozata alaposan felforgatja a kezdő drónok piacát...

csütörtök 15:56

Az OpenAI ingyenes adatvédelmi eszköze valóban letarolja a piacot?

Az OpenAI jelentős lépést tett az adatvédelem felé a Privacy Filter nevű új, nyílt forráskódú modell megjelenésével...

csütörtök 15:45

Az inflációs sokk megakasztja a Bitcoin raliját

💸 Az elmúlt hetekben úgy tűnt, hogy a Bitcoin újabb áttörés előtt áll, amikor egészen 80 000 dollárig (kb...

csütörtök 15:34

Az MI feletti hatalomért folyik a könyörtelen küzdelem

Az összetett MI-ügynökök bevezetése a vállalatok életébe alaposan felforgatja az eddig ismert gyakorlatokat...