MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?



Legfrissebb posztok

Az elektronok, amelyek úgy viselkednek, mint egy csomó foton

MA 18:00

Az elektronok, amelyek úgy viselkednek, mint egy csomó foton

Léteznek olyan különleges anyagok, amelyeket mesterséges intelligencia által vezérelt szintézissel állítanak elő, és bennük az elektronok képesek a fotonokhoz hasonlóan, akár tömeg nélkül, fénysebességgel is mozogni. Ezek az...

Az MI-háború: a Microsoft hűtlen lesz az OpenAI-hoz?

MA 17:51

Az MI-háború: a Microsoft hűtlen lesz az OpenAI-hoz?

A Microsoft új stratégiája szerint már nem kizárólag az OpenAI-ra támaszkodik, hanem szerződést kötött a rivális Anthropickal is. Az Anthropic fejlett Claude Sonnet 4 MI-modellje hamarosan megjelenik a...

Az MI-vel tarol a Pixel 10 – Tényleg ennyit tud?

MA 17:26

Az MI-vel tarol a Pixel 10 – Tényleg ennyit tud?

A Google Pixel 10 Pro MI-újdonságait próbálva úgy tűnik, végre tényleg használhatóvá váltak ezek a fejlesztések – legalábbis, amikor éppen működnek. Az élő fordítás például zseniális, amíg teljesen...

Három fontos dolog, amit kibertámadáskor rögtön tudni akarsz

MA 17:02

Három fontos dolog, amit kibertámadáskor rögtön tudni akarsz

Amikor egy kibertámadás éri a céget, minden másodperc számít: lefagynak a rendszerek, elérhetetlenné válnak a fájlok, és pánikszerűen érkeznek a hívások. Ilyenkor leginkább az segít, ha három kulcsfontosságú...

A bél rejtett titka: az elhízás igazi gyújtózsinórja

MA 16:50

A bél rejtett titka: az elhízás igazi gyújtózsinórja

💬 Kanadai kutatók egy eddig ismeretlen módszert találtak arra, hogyan javítható a vércukorszint és csökkenthető a májkárosodás: a bélbaktériumok egy rejtett melléktermékét kell egyszerűen csapdába ejteni, még mielőtt problémát...

A Jangce titkos lakói: veszélyben a folyó élővilága

MA 16:26

A Jangce titkos lakói: veszélyben a folyó élővilága

Az elmúlt években a tudósok folyamatosan küzdenek azért, hogy megmentsék a kihalás szélére sodródott állatfajokat Kína leghosszabb folyójában, a Jangcében. Wuhanban, a Hidrobiológiai Intézet hatalmas medencéjében szürke, elegáns...

Szebbet teremt az MI, vagy csak jobban megtéveszt minket az esztétikai Turing-teszt

MA 16:02

Szebbet teremt az MI, vagy csak jobban megtéveszt minket az esztétikai Turing-teszt

A legújabb Guess reklámban egy feltűnően gyönyörű nő vonja magára a figyelmet – csakhogy nem létezik. Az apró betűs rész árulja el: a modell teljes egészében mesterséges intelligencia...

Az óriási Starship végre nem robbant fel – Siker a 10. teszt után!

MA 14:52

Az óriási Starship végre nem robbant fel – Siker a 10. teszt után!

A 123 méter magas, személyzet nélküli Starship rakéta új korszakot nyitott a világűrben, miután végre túlélte története eddigi leglátványosabb tesztjét. A rakéta kedden 19:30-kor szállt fel a texasi...

Az MI-cégek megütötték a bokájukat: 540 milliárd forintos bírság a szerzőknek

MA 14:26

Az MI-cégek megütötték a bokájukat: 540 milliárd forintos bírság a szerzőknek

Az Anthropic nevű MI-startup történelmi jelentőségű, 1,5 milliárd dolláros, azaz körülbelül 540 milliárd forintos kártérítést fizet ki könyvszerzőknek és kiadóknak egy szerzői jogi per lezárásaként. Ez az eddigi...