MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 16:17

A Tesla bajban: Kalifornia megbüntetné az Autopilot miatt

A kaliforniai Közlekedési Hatóság (DMV) komoly lépésre szánta el magát a Tesla ellen: ha a cég nem hagy fel a félrevezető marketinggel, amely túlhangsúlyozza autói önvezető képességeit, akár egy hónapra is felfüggeszthetik a járművek értékesítését az államban...

MA 16:01

A csirkében talált szója miatt országos visszahívás, veszélyben az allergiások

🐑 Több mint 28 ezer kilogramm főtt, csonttal együtt panírozott csirkét hív vissza egy georgiai élelmiszergyártó, a Suzanna’s Kitchen...

MA 15:49

Az áttörés: vérteszt jelzi az Alzheimer-kórt tünetek előtt

💡 Könnyen lehet, hogy hamarosan egy egyszerű vérvizsgálat is képes lesz kiszűrni az Alzheimer-kórt, méghozzá jóval az első jelek megjelenése előtt...

MA 15:34

Az MI miatt ezreket bocsáthat el a McKinsey

💼 A világ egyik legismertebb tanácsadó cége, a McKinsey tömeges elbocsátásokat tervez, amelyeket főként az MI bevezetése és a hatékonyság növelése indokol...

MA 15:17

Az indiai csodaprocesszor még messze van a világelittől

🌍 India bemutatta legújabb saját fejlesztésű processzorát, a DHRUV64-et, amely kétmagos, RISC-V architektúrájú, 1 GHz-es órajelű, és 28 nanométeres gyártástechnológiával készül...

MA 15:02

Az Ink Dragon lecsap: kínai kémek Európa kormányhálózataiban

A kínai Ink Dragon nevű kémcsoport új offenzívát indított, és már európai kormányzati hálózatokra is rátette a kezét...

MA 14:50

Az új drónlabor átírja a nitrátellenőrzés szabályait

Egy kutatócsapat kifejlesztett egy drónra szerelt miniatűr laboratóriumot, amely valós időben méri a nitrátkoncentrációját nehezen megközelíthető vizekben, például meredek árkokban vagy mocsaras területeken...

MA 14:33

Az aktív hőmetafelületek kilencszeresére erősítik a hőjelet

🔥 A fény világában már ismert a szuperszórás nevű jelenség: ilyenkor egy parányi tárgy a méreténél jóval több fényt szór szét...

MA 14:18

Az internet kevésbé toxikus, mint a hírneve

😃 Az amerikaiak többsége úgy érzi, az online tér sokkal ellenségesebb, mint amilyen valójában...

MA 14:02

A „fitt” férfi majdnem belehalt: sztrókot okozott az energiaital

Noha az energiaitalokat sokan ártalmatlannak tartják, egy nottinghami férfi esete rávilágít arra, mennyire veszélyes lehet túlzásba esni velük...

MA 13:49

Az MI alatt roskadozik az európai internet?

Az MI elképesztő terhelést jelent a kontinens digitális hálózatainak – a Nokia szerint pedig az európai internet egyszerűen túl kicsi lett ahhoz, hogy megbirkózzon a növekvő adatforgalommal...

MA 13:33

Az új influenzavariáns tarol, megtelnek a kórházak

Egy újfajta influenzaváltozat, az úgynevezett K-alfaj, komoly megbetegedési hullámot indított el világszerte, beleértve az Egyesült Államokat, az Egyesült Királyságot, Kanadát és Japánt...

MA 13:17

A RedotPay lett a stabilcoin-piac új királya

💵 A RedotPay, a stabilcoin-alapú fizetési fintech 194 millió dollárra (több mint 70 milliárd forint) növelte tőkéjét, miután 2025 novemberében sikeresen lezárt egy 107 millió dolláros (közel 39 milliárd forintos) Series B befektetési kört...

MA 13:02

A színes szúnyogok forradalma: így állítjuk meg a betegségeket

A jeruzsálemi Héber Egyetem kutatói egy új, színkódolt genetikai módszert fejlesztettek ki, amellyel egyszerűen megkülönböztethetők a hím és nőstény szúnyogok...

MA 12:49

Az ország adatai veszélyben: brutális adatlopás rázza meg Dél-Koreát

Dél-Korea vezető online kereskedelmi vállalatát, a Coupangot soha nem látott mértékű kibertámadás érte, amelynek során csaknem minden munkaképes korú felnőtt személyes adatai kikerültek...

MA 12:17

Megmentheti az új vezérigazgató a bajban lévő Kraft Heinzet?

🤔 A Kraft Heinz bejelentette, hogy Steve Cahillane, a Kellanova korábbi vezérigazgatója veszi át a cég vezetését, és segít a vállalat kettéválasztásában...

MA 12:03

Az Avatar kezdőcsomag: kihagyhatatlan ajándék az újonc Magic-játékosnak

🎁 A Magic: The Gathering világában az új rajongók bevonzása folyamatos kihívás, főleg, ha valaki egyedi tematikával ismerkedne meg...

MA 11:50

Az IMAP űrszonda már a Naprendszer peremét térképezi

🛰 A NASA Interstellar Mapping and Acceleration Probe (IMAP) űrszonda fedélzetén működő, a Southwest Research Institute által fejlesztett Compact Dual Ion Composition Experiment, vagyis a CoDICE nevű műszer már megkezdte első megfigyeléseit...

MA 11:33

A Meta árnyékában tomboló gigászi kínai hirdetési csalás

A Meta – annak ellenére, hogy Kínában tiltott a közösségimédia-platformjainak használata – évi több mint 6 400 milliárd forint (18 milliárd USD) bevételt termel Kínából származó reklámokból...