MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 14:32

Az Apple 83 ezres zokniját percek alatt elkapkodták

Egy újabb őrületes Apple-kiegészítő söpört végig a rajongók körében: a limitált szériás iPhone Pocket, ami lényegében egy nyúlánk, zokniszerű tok, amely az egykori iPod-zoknikat idézi...

MA 14:17

Az óriási kínai meteoritkráter titka végre napvilágra kerül?

💨 Kínai kutatók egy hatalmas, több mint 900 méter átmérőjű meteoritkrátert fedeztek fel, amely valószínűleg a történelem előtti időkben keletkezett egy aszteroida becsapódásakor...

MA 13:49

A Fortnite végre megérkezik az Xbox PC-áruházába

🎮 Mostantól nemcsak az Epic Games Launcheren keresztül lehet játszani a legendás Fortnite-ot PC-n, hiszen november 18-tól elérhető lesz az Xbox PC-alkalmazásban is...

MA 13:33

Az újonnan felfedezett kínai kráter átírja a Föld közelmúltját

🛴 Kínai kutatók hatalmas, eddig rejtett becsapódási krátert fedeztek fel, amely alapjaiban változtatja meg a Föld közelmúltjára vonatkozó ismereteinket...

MA 13:02

A szuperszonikus áttörés, amely átírhatja a légi közlekedés szabályait

🚀 Képzeld el, hogy a világ másik felére utazni annyi időbe telik, mint megnézni egy mozifilmet – akár egy óra alatt átszelhető az egész bolygó...

MA 12:49

Az ősi gén visszatér: vége a köszvénynek és a zsírmájnak?

A tudósok egy évtizedekkel ezelőtt elveszett gén feltámasztásával forradalmi előrelépést értek el: a CRISPR-MI technológiával képesek voltak csökkenteni a húgysavszintet és megakadályozni a káros zsírfelhalmozódást emberi májsejtmodellekben...

MA 12:34

Az olcsó űrutazás küszöbén? A NASA Mars-missziója a jövőt formálja

🚀 2025. november 13-án új korszak kezdődött a bolygóközi kutatások terén, amikor a Blue Origin New Glenn rakétája sikeresen pályára állította a NASA ESCAPADE (Escape and Plasma Acceleration and Dynamics Explorers) nevű Mars-misszióját Floridából...

MA 12:17

A Clop zsarolói betörtek a Logitechhez: tömeges adatlopás

A svájci Logitech vállalat, amely világszerte számítástechnikai kiegészítőket, szoftvereket és okoseszközöket forgalmaz, hivatalosan is megerősítette, hogy kibertámadás érte, amelynek során a Clop nevű hackercsoport tagjai érzékeny adatokat loptak el...

MA 12:02

A digitális tévhitek csapdája: így óvhatjuk meg a fiatalokat

💡 A mai fiatalok olyan digitális világban nőnek fel, ahol a közösségi média életük mindennapi része lett...

MA 11:49

Az új Switch 2 frissítés kinyírja az olcsó dokkolókat

A Nintendo legutóbbi Switch 2-frissítése (21.0.0) kellemetlen meglepetést tartogatott azoknak, akik nem a gyári dokkolót használják...

MA 11:33

Az új Star Trek tényleg Chris Pine nélkül érkezik?

A Paramount ismét teljesen újraindítja a Star Trek filmsorozatot, ezúttal Chris Pine nélkül, méghozzá épp a Dungeons & Dragons: Betyárbecsület (Dungeons & Dragons: Honor Among Thieves) alkotótársaival, John Francis Daleyvel és Jonathan Goldsteinnel...

MA 11:18

A kullancscsípés halálos húsallergiát váltott ki: meghalt egy férfi

🐞 Egy New Jersey-ben élő 47 éves férfi vesztette életét egy ritka húsallergia, az úgynevezett alfa-gal szindróma miatt, amelyet kullancscsípés váltott ki...

MA 11:01

Az otthoni munka áll a 2025-ös kibertámadások mögött?

💻 A 2025-ös évben is egyre többen dolgoznak távolról, és ezzel együtt nőtt a kibertámadások száma...

MA 10:57

Az új iPhone Pocket egy nap alatt eltűnt a polcokról

Az Apple és a japán ISSEY MIYAKE divatmárka közös, exkluzív iPhone Pocket kiegészítője hivatalosan is rendelhetővé vált, de az amerikai készlet már az első nap teljesen elfogyott...

MA 10:49

A brit pénzügyi óriás hadat üzen az adathalászoknak

🔒 A brit Checkout.com-nál komoly adatbiztonsági incidens történt: a hackercsoportként ismert ShinyHunters betört az egyik régi felhőalapú tárolórendszerbe, és nagy mennyiségű adatot szerzett meg, amely nagyrészt a vállalat kereskedőit érinti...

MA 10:42

Az első MI-irányította kibertámadás: tényleg megtörtént, vagy csak hype?

🤖 Tipikus eset, amikor egy nagy technológiai cég szenzációs bejelentése igencsak vegyes fogadtatással találkozik: az Anthropic azt állítja, hogy egy kínai állami hátterű hackercsoport, a GTG-1002 kibertámadási akcióját nagyrészt saját, Claude nevű MI-jük automatizálta...

MA 10:27

Vége a titkosításnak az új kvantumszámítógépekkel?

A kvantumszámítógépek érkezése alapjaiban változtatja meg, hogyan védjük adatainkat. Míg a klasszikus számítógépek a megszokott 0 és 1-es biteken alapulnak, a kvantumrendszerek úgynevezett kvantumbiteket (qubit) használnak, amelyek egyszerre több állapotban is lehetnek, kiaknázva a szuperpozíció és az összefonódás jelenségeit...

MA 10:17

Az áttörés küszöbén? Akut vesekárosodást fordítottak vissza egerekben

🐾 A vesék egészségének megőrzése kulcsfontosságú, hiszen az akut vesekárosodás (AKI) életveszélyes állapot, amely jelentősen növeli a krónikus veseelégtelenség kockázatát...

MA 10:02

A turisták rendre felülpontozzák az éttermeket

A turisták nemcsak fényképezőgépeket és jó étvágyat hoznak magukkal, hanem kifejezetten pozitív értékeléseket is...