2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 11:17

Az NVLink Fusionnal végre adatközpontokba törnek a RISC-V processzorok

💻 Az NVIDIA újabb nagy lépést tett az MI-alapú adatközpontok világában: a SiFive nevű, nagy teljesítményű RISC-V processzorok fejlesztésére specializálódott cég is csatlakozott az NVLink Fusion ökoszisztémához...

MA 10:57

Az új Gootloader-trükk: ezres ZIP-csapda leselkedik a háttérben

🕵 A Gootloader nevű, 2020 óta aktív kártevő ismét visszatért, és most még trükkösebb módszerrel bújik meg a rendszeren...

MA 10:50

A Grok körüli botrány: perek, szexuális deepfake-ek, botladozó óriás

🔥 Ashley St. Clair, Elon Musk egyik gyermekének édesanyja, pert indított az xAI ellen, mivel szerinte engedélyezte, hogy a felhasználók a Grok MI-vel beleegyezése nélkül készítsenek róla szexuálisan explicit deepfake-képeket...

MA 10:43

Az új Google Pixel 9 tényleg feltörhető egyetlen üzenettel?

Az okostelefonokba beépített MI-alapú funkciók egyre kényelmesebbé teszik az életünket, de csendben tágítják a támadási felületeinket is...

MA 10:36

Az agy takarítói: áttörés az öregedés lassításában?

💡 Az élő sejteknek folyamatosan figyelniük kell saját összetevőiket, hogy időben megszabaduljanak a károsodott fehérjéktől, hibás szervecskéktől vagy behatoló baktériumoktól...

MA 10:29

Az Anthropic Indiában nagyot lép: érkezik a Microsoft-veterán

Az MI gyors térnyerése Indiában újabb fontos fordulatot vett: az amerikai Anthropic a Microsoft India korábbi ügyvezető igazgatóját, Irina Ghose-t nevezte ki helyi vezetőjének...

MA 10:22

Az OpenAI-vezér új startupja agyvezérelt jövőt ígér

Jellemző példa erre, hogy az OpenAI hatalmas befektetései után a mesterséges intelligencia terén most újabb izgalmas terület felé nyit: részesedést szerez a Merge Labsban, amely agy–számítógép-interfészek fejlesztésén dolgozik...

MA 10:15

Az univerzum vérvörös titkai: hogyan születnek a fekete lyukak?

💫 Az elmúlt években a James Webb űrteleszkóp (JWST) felvételein feltűnt furcsa vörös pontok hosszú ideig fejtörést okoztak a csillagászoknak...

MA 10:10

A kikötői friss hal bárhol az asztalon: forradalmi kiolvasztás

🍤 Egy kis forradalom zajlik a halfeldolgozásban: egy újfajta olvasztási módszerrel a fagyasztott hal pontosan olyan friss lesz, mintha egyenesen a kikötőből érkezett volna – akár több ezer kilométerre a tengertől is...

MA 10:02

Az erdők titkos fegyvere: így pörgethető fel a természetes megújulás

🌴 A trópusi erdők képesek akár kétszer olyan gyorsan is visszanőni kivágás után, ha a talajban elegendő nitrogén található – állítja egy friss, nagyszabású kutatás...

MA 09:57

Az Interactive Brokers belép a stabilcoinok világába

💰 Mostantól az Interactive Brokers ügyfelei bármikor, a hét minden napján feltölthetik brókerszámlájukat USDC stabilcoinnal, amelyet perceken belül dollárra váltanak, és jóváírnak a kereskedési számlájukon...

MA 09:50

A beragadt SOS-módból így szabadíthatod ki az iPhone-t

Első pillantásra úgy tűnt, hogy páran csak furcsa kijelzést látnak a telefonjuk tetején, amikor a Verizon szolgáltatása a héten több millió embert meglepetésszerűen hagyott hálózat nélkül...

MA 09:43

A Meta új kudarca: leáldozott a virtuális irodáknak

💼 A Meta ismét rossz híreket közölt a VR-rajongókkal: megszünteti a Horizon Workrooms alkalmazást, amelyet eredetileg vállalati együttműködésre tervezett virtuális térnek szánt...

MA 09:37

A tajvani mentőöv 91 ezer milliárd forinttal menti az amerikai chipgyártást

🌐 Az Egyesült Államok új gazdasági megállapodást kötött Tajvannal, amelynek keretében tajvani félvezetőipari és technológiai cégek 250 milliárd dollár (kb...

MA 09:30

Az öröklött vakság talán mégsem végzet?

👀 Genetikai kutatások évtizedeken át azt sugallták, hogy egyes örökletes génváltozatok szinte minden esetben vaksághoz vezetnek...

MA 09:22

A Nano Banana tarol a neten: ki áll mögötte?

Aki valaha találkozott MI-alapú képgenerátorokkal, nagy eséllyel látott már Nano Banana által készített képet, akár anélkül is, hogy tudta volna...

MA 09:15

Az ősi kannabiszenzimek visszatérnek: új korszak jön az orvoslásban?

🌾 A Wageningeni Egyetem kutatói sikeresen rekonstruálták a kannabisz évmilliókkal ezelőtti enzimjeit, amelyek kulcsszerepet játszottak a jól ismert hatóanyagok – például a THC, CBD és CBC – kialakulásában...

MA 09:08

Az eltitkolt igazság: a Boeing tudott a végzetes UPS-géphibáról

📦 Egy 2023 novemberében, Kentuckyban lezuhant UPS MD-11F teherszállító repülőgépen kritikus szerkezeti hibát találtak a nyomozók, amelynek veszélyeiről a Boeing már 15 évvel korábban tudott hasonló típusoknál...

MA 09:01

A népszerű WordPress-bővítmény hibája adminjogot ad a támadóknak

⚠ Több mint 40 000 WordPress-oldalt veszélyeztet az a súlyos sebezhetőség, amelyet a Modular DS nevű bővítményben fedeztek fel...