MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 07:57

A népszerű hashajtó meglepő védelmet adhat a veséknek

💊 A krónikus vesebetegség világszerte milliókat érint, és sokaknál elkerülhetetlenné teszi a rendszeres dialízist...

MA 07:52

Az övsömör elleni oltás meglepően védhet a demencia ellen

💉 Érdemes megvizsgálni, hogy egy rutinszerű övsömör elleni védőoltás milyen erős védelmet nyújthat a demenciával szemben...

MA 07:44

Az első kvantumszámítógép átírhatja Szingapúr jövőjét

A Szingapúrban működő Horizon Quantum nevű szoftvercég jelentős mérföldkőhöz érkezett: elsőként telepített kereskedelmi használatra szánt kvantumszámítógépet az országban...

MA 07:37

Az óriás barkácslánc ügyféladatai kiszivárogtak

🔑 A francia Leroy Merlin figyelmeztetést küldött franciaországi vásárlóinak, miután egy kibertámadás során személyes adataikhoz illetéktelenek is hozzáférhettek...

MA 07:32

Az új BMW iX3: elektromos erő és pengeéles német precizitás

🚗 A BMW új korszakot nyit az iX3-mal, amely a Neue Klasse sorozat első tagja...

MA 07:23

Lehull a lepel az ARM-eszközökről: a Cellebrite bekebelezi a Corelliumot

🕶 A digitális nyomozás új korszaka érkezik: a Cellebrite megállapodott a Corellium felvásárlásáról...

MA 07:16

A Meta elcsábította az Apple dizájnguruját: jön a stílusváltás?

Az Apple hosszú évek óta egyik legmeghatározóbb dizájnere, Alan Dye a Metánál folytatja pályafutását...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 12/4

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     SynthMaster 2 (iPhone/iPad)A díjnyertes SynthMaster 2...

MA 07:09

A Reddit végre búcsút int az r/popularnak

👋 A Reddit vezetése alapjaiban forgatja fel a felhasználói élményt: megszűnik az r/popular, és jönnek a személyre szabottabb hírfolyamok...

MA 07:02

Az univerzum legnagyobb forgószörnye: tizennégy galaxis haláltánca

Egy hatalmas, forgó szálat fedeztek fel a kozmikus hálóban, amelyhez 14 galaxis kapcsolódik – így valószínűleg ez a legnagyobb forgó szerkezet, amit valaha láttunk...

MA 06:59

A dél-afrikai ősember döbbenetesen eltérő génállománya

🔑 Elszigetelt múlt, egyedi genetika Több mint 100 000 évig élt elszigetelten az emberiség egy csoportja Dél-Afrikában, a Limpopo folyótól délre – derül ki egy új genetikai tanulmányból...

MA 06:52

Az okosvécé, amely nem azt titkosítja, amire számítanál

A Kohler bemutatta új Dekoda nevű vécé-kiegészítőjét, amely állítása szerint képes feltérképezni a bélrendszered állapotát, a hidratáltsági szintedet, és még a vér jelenlétét is kimutatja a székletedben...

MA 06:44

Mostantól tényleg rád tapad az algoritmus a Threads-en

A közösségi médiában sokszor úgy érezzük, hogy egy láthatatlan, mindenható algoritmus dönt arról, mit látsz a hírfolyamodban...

MA 06:38

A dél-afrikai remete rejtélye

A modern emberek afrikai eredete mára tudományos ténynek számít, de a kontinensen belüli népességmozgások története kevésbé átlátható...

MA 06:31

Az újrazöldített Kína: fogy a víz, nő az erdő

🌳 Érdemes megérteni, hogy Kína az elmúlt évtizedekben óriási mértékben fásított, és ennek nem várt mellékhatásaként teljesen átrendeződött az ország vízkészlet-eloszlása...

MA 06:23

Az orosz hatóságok nekimentek a Robloxnak LMBT-propaganda miatt

Oroszország kommunikációs felügyelete, a Roszkomnadzor teljesen blokkolta a Robloxhoz való hozzáférést, mivel szerintük a platform nem akadályozta meg az LMBT-témák, valamint szélsőséges tartalmak terjesztését...

MA 06:16

Az Univerzum nagy trükkje: egy Tejútrendszer-ikertestvér a kozmikus hajnalból

A James Webb űrteleszkóp (JWST) meglepő felfedezést tett: alig 1,5 milliárd évvel az ősrobbanás után egy fejlett, spirális galaxis tűnt fel az égbolton...

MA 06:11

A világegyetem titkos nyelve: a Lie-csoportok ereje

A matematika világa tele van olyan elvont struktúrákkal, amelyek első pillantásra furcsán egyszerűnek tűnnek, mégis lenyűgöző erővel bírnak...

MA 06:06

Történelmi események a mai napon (December 4.)

Erre a napra jutott, hogy Nagy Károly egyeduralkodó lett a frank királyságban, az Egyesült Államok szenátusa pedig jóváhagyta az ország belépését az ENSZ-be...