MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

kedd 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

MA 20:49

A lézerek új korszaka: amikor a zérus módus nem topologikus

Az utóbbi években a nem hermitikus fizika és a topológiai fotonika találkozása forradalmasította a lézerek fejlesztését...

MA 20:35

Az új szabályok megállíthatják a cápák és ráják mészárlását

🐙 Ebből következően érdemes megérteni, miért emelkednek most a cápák és ráják védelmének esélyei az egész világon...

MA 20:18

A Nap kapujában: a Parker Solar Probe újabb diadala

🔥 A NASA Parker Solar Probe űrszondája ismét elképesztően közel jutott a Naphoz december 13-án, amikor elérte pályájának legközelebbi pontját, a periheliont...

MA 20:02

Az emberalakú robotok valósága még mindig távoli álom

🤖 Hollywood ábrándja és a való világ rideg valósága Évtizedek óta vágyunk azokra az emberformájú robotokra, amelyeket a sci-fi filmek – mint a Westworld (Westworld) vagy a Csillagok háborúja (Star Wars) – hétköznapi tárgyként mutatnak be...

MA 19:49

Az iskolanyitás villámgyorsan javította a gyerekek lelkiállapotát

Az iskolák újbóli megnyitása a COVID-járvány után világszerte komoly változásokat hozott a gyerekek mentális egészségében...

MA 19:33

Az új macOS Tahoe 26.2 forradalmasítja a videóhívásokat

📞 Az Apple a napokban adta ki a macOS Tahoe 26.2 frissítést, amely minden eddiginél kényelmesebbé teszi a videóhívásokat Macen és MacBookon...

MA 19:19

A mesterséges intelligencia új életet lehel a bezárt atomerőművekbe

A Michigan-tó keleti partján, dűnék között bújik meg a Palisades Atomerőmű, amely 2022-ben gazdasági okokból bezárta kapuit...

MA 19:01

Az utolsó szög a szénkorszak koporsójában

New England utolsó széntüzelésű erőműve, a New Hampshire-ben található Merrimack Station a tervezettnél három évvel korábban végleg leállt...

MA 18:50

Az agy rejtett kapcsolója: áttörés a mentális zavarok kezelésében

Lényeges szempont, hogy az agy alkalmazkodóképessége döntő szerepet játszik abban, hogyan birkózunk meg a stresszel, és ez új irányt mutathat a jövőbeli mentális egészségügyi kezelések területén...

MA 18:34

Az élet nem unalmas: a fagyott sós víz trükkjei

❄ Képzeld el, hogy egy vékony csövet teleöntesz sós vízzel, majd megfigyeled, ahogy lassan, egyik végéről indulva megfagy...

MA 18:18

A szintetikus fonika csapdája: válságban az angol olvasástanítás

2012 óta az angliai általános iskolákban egyre szűkebb módszert írnak elő az olvasástanításra...

MA 18:01

A német energiaforradalom: az áram fele már zöld

Németországban 2025-ben a teljes áramfogyasztás közel 56 százalékát fedezték megújuló energiaforrásokból, egy nehéz év ellenére is...

MA 16:51

Az olcsó Bose hangprojektor: ár-érték bajnok vagy csalódás?

Mindenki ismeri azt az érzést, amikor a tévéből érkező hang tompa, a párbeszédeket alig értjük, a basszus lapos, és a hangerő csak élesebbé teszi a problémákat...

MA 16:33

Az FDA újabb vakcinariadója: jön a pánik?

2025. december 12. Az amerikai Élelmiszer- és Gyógyszerügyi Hivatal (FDA) a hírek szerint fontolóra vette, hogy „feketedoboz-figyelmeztetést” helyez el a COVID-vakcinákon, noha a kutatási eredmények és a gyakorlati adatok világszerte a biztonságukat igazolják...

MA 16:18

Az űripar nagy dobása: tőzsdére lép a SpaceX

Több mint húsz évvel az alapítása után a SpaceX, amely forradalmasította az űripart, végre tőzsdére készül lépni...

MA 16:02

A mesterséges intelligencia emberibbé teszi a bionikus kezek mozgását

Érdemes megvizsgálni, hogy a bionikus kezek fejlesztése mennyire javítja az amputáltak életminőségét, és milyen szerepet játszik az MI ebben az új hullámban...

MA 15:51

Itt a Shark TurboBlade: tényleg vége a hőháborúnak?

🐟 Ez a jelenség jól illusztrálható azzal, hogy sok háztartásban folyamatos harc folyik a termosztát feletti felügyeletért...

MA 15:34

A legjobb ízületkímélő erősítő gyakorlatok 50 felett: öt bevált tipp

Az életkor előrehaladtával a testünk változik, és gyakran épp akkor kezd nehezebben épülni az izomzat, amikor a legnagyobb szükség lenne rá...