MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 10:22

Az univerzum legfényesebb rejtélye: változnak-e a fekete lyukak?

💫 Az elmúlt évek legizgalmasabb felfedezése rázta meg az asztrofizikát: kiderült, hogy a szupernagy tömegű fekete lyukakat körülvevő anyag szerkezete egészen más volt a világegyetem múltjában, mint ma...

MA 10:16

A Wi‑Fi 8 végre véget vet a szakadozásnak?

📶 Ami először apróságnak tűnt, mára sokunk életét megkeserítő problémává nőtte ki magát: a lassú, akadozó Wi-Fi, főleg, ha sok eszköz csatlakozik egyszerre...

MA 09:51

A hatékonyság árnyéka: miért félnek tőle a dolgozók?

Fontos kérdés, hogy mi mozgatja igazán a munkaerőpiacot 2025-ben: a válasz egyetlen szóban is összefoglalható – hatékonyság...

MA 09:29

Az új szupravezető, amely felforgatja a fizika szabályait

⚡ Érdekes felvetés, hogy egy látszólag hétköznapi, fényes szürke kristály, a platina-bizmutid (PtBi2) olyan viselkedést mutat, amilyet a tudósok még sosem láttak korábban...

MA 09:22

A Gmail-címed végre megváltoztatható lesz?

📧 Most már közelebb vagyunk ahhoz, hogy könnyedén lecserélhesd régi Gmail-címedet egy újra...

MA 09:10

Az appos barátkozás aranykora köszöntött be

Fontos kérdés, hogy miként alakíthatunk ki új barátságokat, amikor a magány és a társadalmi elszigetelődés globális jelenséggé vált...

MA 09:02

Az amerikai nekrológokból kiderül, mi az igazán jó élet

Jellemző, hogy a családok a nekrológokat arra használják, hogy kifejezzék, mit tartanak a legfontosabbnak szeretteik életében...

MA 08:58

Az MI és az analóg védelem forradalma most indul

⚡ Ahogy az év vége közeleg, a nagyvállalatok biztonsági vezetői újra és újra szimulált kiberincidenseket futtatnak le, hogy felkészüljenek egy esetleges támadásra vagy digitális válsághelyzetre...

MA 08:51

Az apró chip, amely új korszakot nyithat a kvantumszámítástechnikában

A kutatók áttörő eredményt értek el a kvantumszámítástechnikában egy mindössze néhány századmilliméter vékony chip megalkotásával, amely szinte százszor vékonyabb, mint egy emberi hajszál...

MA 08:44

Visszatér-e az USA a Holdra Trump elnöksége alatt?

A NASA frissen kinevezett igazgatója, Jared Isaacman bejelentette: még Donald Trump második elnöki ciklusában újra amerikai lábnyom kerül a Holdra...

MA 08:36

Az indiai IT-t már temették, most jön a nagytakarítás

Két évvel azután, hogy az MI-technológia elterjedése Indiában a 98 000 milliárd forint (250 milliárd USD) értékű IT-szektor végét vetítette előre, a nagyvállalatok még mindig nélkülözhetetlennek tartják a hazai szakembereket – főleg az unalmas, de szükséges háttérmunkákhoz...

MA 08:29

Az űrháború új frontja: a Blue Origin leigazolta Tory Brunót

Nagy visszhangot váltott ki, hogy mindössze négy nappal azután, hogy elhagyta a United Launch Alliance (ULA) elnöki és vezérigazgatói pozícióját, Tory Bruno máris új kihívás elé néz – ezúttal a Blue Origin kötelékében, ahol a frissen létrehozott National Security Groupot vezeti...

MA 08:22

Az új Rodeo: közös programtervezés valós időben

A naptárad folyamatosan tele van, de a baráti programok egyeztetése mégis állandó káosz?..

MA 08:16

A Trust Wallet bukása: 2,5 milliárd forintnyi kriptó tűnt el

Karácsonyi botrány rázta meg a kriptovilágot: a Trust Wallet Chrome-bővítményének fertőzött frissítése miatt legalább 7 millió dollár (közel 2,5 milliárd forint) értékű kriptopénz tűnt el villámgyorsan a felhasználók pénztárcáiból...

MA 08:02

Az Uránusz és a Neptunusz: mégis kőóriások?

A Naprendszer peremén keringő Uránusz és Neptunusz belső szerkezete jóval több meglepetést tartogat, mint ahogy azt eddig hitték...

MA 07:58

Lehull a lepel az altermágnesek rejtett mágnesezettségéről

💣 A klasszikus antiferromágnesek világa után most egy vadonatúj mágneses anyagosztály, az altermágnesek kelthetik fel a fizikusok érdeklődését...

MA 07:49

Az MI-őrület ára: egyre idegesebbek a hitelezők

Miközben a részvénybefektetők rekordmagasságba emelik az MI-vel foglalkozó cégek részvényeit, a hitelpiac már jóval óvatosabbá vált...

MA 07:45

A téli égbolt útikalauza: csillagképek kezdőknek

Többek között a tiszta téli éjszakák felfedik a csillagos ég legszebb arcát...

MA 07:37

A Samsung Galaxy Z Fold 7 végre megéri: telefon és tablet egyben

📱 A Samsung Galaxy Z Fold 7 igazán rászolgált a 2025-ös év legjobb telefonja címre, hiszen valódi műszaki bravúr...