MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

szerda 20:51

A forrólevegős sütő, amivel gyerekjáték megetetni az egész családot

Erre utal többek között az, hogy a Ninja Crispi Pro 6-in-1 üvegtartályos asztali légsütő nemcsak a klasszikus egyszemélyes vagy páros konyhák álma lehet: akár tízfős társaságot is simán kiszolgálhat, köszönhetően óriási, 5,7 literes főzőedényének...

szerda 20:33

A mikroműanyagok láthatatlanul mérgezik vizeinket

Egyre világosabbá válik, hogy a mikroműanyagok nemcsak szemmel látható szennyezők, hanem láthatatlan vegyi felhőket is kibocsátanak a folyókba, tavakba és óceánokba...

szerda 20:17

Az új botnethullám ostrom alá vette a Next.js-szervereket

A RondoDox nevű botnet hónapok óta tartja rettegésben az informatikai világot: most a React2Shell hibát (CVE-2025-55182) használja ki, hogy Next...

szerda 19:33

Az Unleash Protocolt kifosztották: milliárdok tűntek el

A decentralizált szellemi tulajdonkezelő platform, az Unleash Protocol súlyos támadást szenvedett el: egy illetéktelen szerződésfrissítés után 3,9 millió dollárnyi (kb...

szerda 19:19

A gyógyítás forradalma, zuhanó közegészség: mi vár ránk 2026-ban?

💉 Az elmúlt években a gyógyászat elképesztő áttöréseken ment keresztül, de miközben új terápiák és technológiák valósággá válnak, a közegészségügy alapjai megrendültek...

szerda 19:02

Az élet nyomában: új felfedezések a Marson egykor hömpölygő óriásfolyókról

Ami először apróságnak tűnt, mára alapjaiban változtatja meg a Marsról alkotott elképzeléseinket: egykor hatalmas folyók és eső formálták a vörös bolygó felszínét...

szerda 18:33

Az orosz szál és a Balti-tenger sötét mélyének titkai

Finn hatóságok lefoglaltak egy hajót, amelyről azt gyanítják, hogy horgonyával átvágta a Finn-öböl alatt húzódó, Helsinkit Tallinnal összekötő tenger alatti távközlési kábelt...

szerda 18:17

A Disneyt 3,6 milliárd forintra büntették gyerekadatokért

🚫 A Disney beleegyezett, hogy 3,6 milliárd forint (10 millió dollár) bírságot fizet, mert megsértette a gyermekek online adatvédelméről szóló amerikai törvényt...

szerda 18:03

A titokban csempészett Nvidia-chipek: 60 milliárd forintnyi hardver Kínán át

2024. december 8-án az amerikai hatóságok egy nagyszabású nyomozás részleteit hozták nyilvánosságra, amely egy világszintű, Kínához köthető csempészhálózatot buktatott le...

szerda 17:51

Az űr és védelem aranykora: ezek a műholdas cégek hódítottak

Fontos kérdés, hogy a tőzsdei befektetők figyelme miért fordult ebben az évben az űripar és a hadiipar felé, amikor a mesterséges intelligencia körüli felhajtás mindent elárasztott...

szerda 17:17

Az IBM-fiaskó kaput tár a hackereknek: veszélyben az API Connect

🚧 Az IBM kritikus sebezhetőségre figyelmeztet az API Connect vállalati platformban, amely súlyos biztonsági rést jelenthet több száz pénzügyi, egészségügyi, kiskereskedelmi és telekommunikációs cégnél világszerte...

szerda 16:49

A nagy földrengések tanulsága: a mianmari rengés mindent elsöpört

Március végén egy hatalmas, 7,7-es erősségű földrengés rázta meg Mianmart, amely példátlan módon, rendkívüli hatékonysággal és zökkenőmentesen vitte át a mélyből érkező energiát a felszínre...

szerda 16:18

A hó birodalma: Colorado rejtett fehér csodái

A Coloradó téli erdeiben és hegyoldalain egészen különleges jelenség játszódik le: néhány állatfaj megváltoztatja a bundája vagy tollazata színét, és hófehér ruhát ölt, hogy túlélje a kemény évszakot...

szerda 16:01

A hongkongi bankok új trükkje: csak személyesen férsz a pénzedhez

🔒 Hongkong új szintre emeli a banki csalás elleni védelmet: bevezették a Money Safe-számlákat, amelyekből kizárólag személyes megjelenéssel lehet pénzt felvenni vagy utalni...

szerda 15:49

A papírlevél korszaka véget ér Dániában

Dániában mostantól már senki sem számíthat arra, hogy hivatalos levelet talál a postaládájában, ugyanis az állami PostNord végleg leállította a levélkézbesítést...

szerda 15:34

A hódgátak forradalma: megmenthetik a tájat a tűzvészek után?

🦐 Magasan, Fort Collinstól nyugatra fekvő hegyekben tudósok és mérnökök hódokat utánoznak — legalábbis ami a gátépítést illeti...

szerda 15:17

Az NIH visszakozik: újraértékelik az elutasított kutatási pályázatokat

Több száz egészségügyi kutatási pályázat kapott új esélyt az Egyesült Államokban, miután a National Institutes of Health (NIH) bejelentette: felülvizsgálja azokat a támogatási kérelmeket, amelyeket a Trump-kormány antidiverzitási intézkedései miatt függesztettek fel...

szerda 15:01

A SoftBank 1460 milliárd forintért bevásárol az MI-forradalomba

A japán SoftBank Group 4 milliárd dollárért, vagyis mintegy 1460 milliárd forintért felvásárolja a DigitalBridge Groupot, hogy tovább erősítse pozícióját a globális MI-infrastruktúra fejlesztésében...

szerda 14:49

Az olcsó napelemek forradalmasítják Afrika mindennapjait

Az olcsó, kínai napelemek és akkumulátorok új korszakot nyitnak Afrika energiaellátásában...