MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 20:17

Az új csodarost: tényleg egészségesebb a hűtött pizza?

Ha a maradék pizza másnap a hűtőből újra a tányérodra kerül, meglepő módon egészségesebbé válhat, mint frissen fogyasztva...

MA 20:02

Az első spirálgalaxis átírja a kozmoszt: Alaknanda szenzációja

Mindössze 1,5 milliárd évvel az ősrobbanás után már létezett egy óriási, szabályos spirálgalaxis, ami csillagászati szempontból szinte lehetetlennek tűnt...

MA 19:49

A mini Hi-Fi, ami letaszítja a trónról a nagy tornyot

🔊 A Schiit Audio bemutatta a Magni Unity fejhallgató-erősítő új változatát, amelyhez immár a friss Mesh DAC is kérhető, így egyetlen pici egységben kapod meg a teljes asztali erősítő–DAC megoldást – mérete mindössze 13 cm × 9 cm...

MA 19:18

Az Amazonas új madara, a rettenthetetlen tinamou veszélyben

Kezdetben a Serra do Divisor Nemzeti Park meredek hegyvidékén dolgozó kutatók felfigyeltek egy különös madárhangra, amely a sűrű aljnövényzetben visszhangzott, megnehezítve a forrás pontos beazonosítását...

MA 18:35

Az Auracast, a Bluetooth titkos ásza, amiről senki sem beszél

🔑 Ami kezdetben ártalmatlannak tűnt, mára a Bluetooth-technológia egyik legforradalmibb újítása lett: megérkezett az Auracast, mellyel párosítás nélkül kapcsolódhatsz fülhallgatóddal, hangszóróddal vagy hallókészülékeddel bármilyen közeli forráshoz...

MA 18:18

Az eredeti Csillagok háborúja 2027-ben visszahódítja a mozikat

🌌 1977 óta először láthatjuk újra eredetiben a Csillagok háborúja: Egy új remény (Star Wars: A New Hope) filmet, minden vitatott CGI-bővítés vagy utólagos átszerkesztés nélkül...

MA 17:34

Meghalt az építészet forradalmára, Frank Gehry, 96 évesen

Frank Gehry, a modern építészet egyik legnagyobb alakja, Santa Monicában hunyt el, 96 éves korában, légzőszervi betegség következtében...

MA 17:18

A karácsonyi dalok tényleg tönkreteszik a munkahelyi hangulatot?

🎅 December első hetében szinte elkerülhetetlen, hogy karácsonyi zenék szóljanak az irodában...

MA 17:02

A leukémia elleni áttörést egy kitartó kémikusnő hozta el.

💫 1941-ben Gertrude Elion kémikusi mesterdiplomát szerzett, de kutatói állásokat nem kínáltak nőknek...

MA 16:34

Az új clickjacking-trükk: SVG-vel és CSS-sel támadnak

Az MI-t gyakran okolják a webes támadásokért, de most egy új, különösen rafinált clickjacking-támadási módszer jelent meg, amely egyáltalán nem használ JavaScriptet...

MA 16:01

Az FBI riaszt: hamisított fotókkal zsarolnak az interneten

🕵 Az FBI friss figyelmeztetést adott ki a legújabb virtuális emberrablásos csalásokról, melyekben bűnözők a közösségi oldalakon talált képeket manipulálják, majd ezekkel megpróbálnak váltságdíjat kicsalni...

MA 15:49

Az OpenAI rávette a renitens MI-ket, hogy kitálaljanak

OpenAI kutatói forradalmi kísérletbe kezdtek: megtanították a cég nagy nyelvi modelljeit (LLM-eket), hogy önként beismerjék, amikor rosszul viselkednek, hibáznak, netán csalnak...

MA 15:17

A tiéd lehet az okostévéd forráskódja?

👀 Az amerikai Vizio tévégyártónak egy kaliforniai bíróság döntése szerint akár ki is kell adnia az okostévéi szoftverének forráskódját a felhasználóknak...

MA 15:02

A klímaváltozás elnyelheti Európa utolsó lápjait

🌊 Európa eredeti lápterületének mindössze 7%-a maradt meg napjainkra, és ez az arány tovább csökkenhet a klímaváltozás miatt...

MA 14:34

A 40 ezer római érme rejtekhelye végre napvilágra került

Szenon falujában, Északkelet-Franciaországban három ősi agyagedényt, úgynevezett amforát találtak a régészek, tele római kori pénzérmékkel...

MA 14:18

A védelem vakfoltja: a passzív adatok csapdája

👁 A digitális rendszerek védelme már nem elég pusztán passzív internetes szkennelési adatokra támaszkodni...

MA 14:03

Az okinavai tudósok leleplezték a lopakodó szabadgyökök támadását

Hihetetlen, de mégis igaz, hogy a napfény nemcsak ragyogóvá, hanem idővel törékennyé és fakóvá is teszi a mindennapjainkat körülvevő műanyagokat és festékeket...

MA 13:50

Az új Salesforce-zseni megingatja a ServiceNow uralmát

A Salesforce most először jelent valódi kihívást a ServiceNow számára, méghozzá egy MI-ügynökökkel működő, új IT szolgáltatásmenedzsment (ITSM) termékkel...

MA 13:17

A fél internet lebénult: visszafelé sült el a Cloudflare védelme

Ma világszerte leálltak weboldalak és online platformok, sok felhasználó “500 Internal Server Error” üzenettel találkozott...