MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 20:50

A lázadó ízlelőbimbók: így alakul át az ízlelésed évről évre

Ki ne harapott volna már forró pitébe, majd egy hétig panaszkodott volna a leégetett ízlelőbimbók miatt?..

MA 20:17

Az MI új botránya: a Grok gyerekekről generált képeket

🚫 Elon Musk Grok nevű MI-chatbotja ismét a figyelem középpontjába került, miután felhasználók gyermekeket szexualizáló, MI által generált képeket fedeztek fel a platformon...

MA 20:02

Az Ultimea 9.2.6-os rendszere forradalmasíthatja a házimozit

A megfizethető hangprojektorairól ismert Ultimea idén egy igazi nagyágyúval készül a CES 2026-ra: a Skywave X100 Dual névre keresztelt 9...

MA 19:50

Az ADHD áttörése: a csendesebb agy nyitja

💡 Felmerül a kérdés, hogy miért ne lehetne az ADHD-t – figyelemhiányos hiperaktivitás-zavart – nem serkentőkkel, hanem éppen az agy elcsendesítésével kezelni...

MA 19:33

Az MI újabb botránya: tiltott képek szabadon keringenek a neten

🚫 Elon Musk MI-je, a Grok nemrég felettébb aggasztó esemény miatt került a figyelem középpontjába: a rendszer egy felhasználói kérés alapján, védelmi hibák miatt szexuális tartalmú képet generált két kiskorúról, amit aztán közzé is tett...

MA 19:17

Az elavult Fortinet tűzfalak veszélyei: több mint 10 ezer eszköz védtelen

🚨 Több mint tízezer Fortinet tűzfal még mindig elérhető az interneten, így könnyű célpontot jelentenek egy már öt éve ismert, súlyos, a kétfaktoros hitelesítés megkerülésére alkalmas hiba kihasználását célzó támadások számára...

MA 19:02

A Windows 11 tarol a Steamen, a Linux lendülete megtörik

🚀 A decemberi Steam-felmérés meglepő eredményeket hozott a PC-s játékosok rendszerválasztása terén: a Windows 11 használati aránya kiemelkedően nőtt, miközben a Linux népszerűség-növekedése gyakorlatilag megállt...

MA 18:49

A természet igazi fúrógépe: így működik a harkály teste

A harkályok elképesztő gépezetek: másodpercenként akár 13-szor kopognak, az ütés ereje pedig több mint harmincszorosa saját testsúlyuknak...

MA 18:34

A milliárdos MI-verseny: Amazon, Meta, Alphabet – most indul a nagy menet

🚀 Stanley Druckenmiller, a világhírű milliárdos befektető, újabb jelentős lépést tett az MI-részvények piacán...

MA 18:18

Az okoshűtő, ami helyetted intézi a bevásárlást

Fontos kérdés, hogy mennyire lehet automatizálni a mindennapi bevásárlást, és hogyan teheti egyszerűbbé egy hűtőszekrény a tervezést...

MA 18:04

A tudomány idei szenzációi, amikről kis híján lemaradtál

December izgalmas tudományos eredményekben bővelkedett: különleges őskövületektől kezdve az univerzum titkain át egészen a stresszoldó videojátékokig szinte minden területen születtek új, meglepő megállapítások...

MA 17:50

Az üstökös, amely véget vethetett a mamutok korának?

🚀 Egy lényeges felvetés, hogy 13 000 évvel ezelőtt egy üstökös robbanása pusztítást hozhatott Észak-Amerikára, ami drámai változásokat idézett elő az állatvilágban és az ősi emberi kultúrában...

MA 17:17

A Samsung Freestyle+ még sosem volt ilyen fényes és okos

💡 A Samsung felturbózta népszerű Freestyle hordozható projektorát: a Freestyle+ a korábbi verzió fényerejének kétszeresét, 430 ISO lumen fényerőt kínál...

MA 16:52

A 2026-os játékforradalom: brutális árrobbanás, abszurd fordulatok

🎮 Ebből következően érdemes megérteni, hogy a videojáték-ipar jövője egészen vad irányba halad a következő években...

MA 16:33

A parányi ideg, amely örök fiatalságot ad a szívnek

💚 Egy rejtett ideg, amely az agyat és a szívet köti össze, kulcsfontosságú lehet abban, hogy a szív tovább maradjon fiatalos...

MA 16:20

Az oltott dán nők szinte teljesen megszabadultak a legveszélyesebb HPV-típusoktól

😊 Több mint másfél évtizede zajlik Dániában a humán papillomavírus (HPV) elleni vakcinációs program, amelynek hosszú távú hatását most először sikerült részletesen vizsgálni...

MA 15:50

Az eltűnt bolygó titka: ütközés törölte a térképről?

Az elmúlt évtizedekben a NASA Hubble űrteleszkópja különös fényforrásokat figyelt meg a Fomalhaut csillag körül, alig 25 fényévre a Földtől...

MA 15:35

Az ifjú csillag kettős arcát tárja fel

A V1180 Cassiopeiae nevű fiatal csillag hosszú távú megfigyelése alaposan felbolygatta a csillagászok elképzeléseit a csillagok kialakulásáról...

MA 15:17

Az MI a hangra épít – jön a háború a kijelzők ellen?

Az OpenAI komolyan veszi a hangalapú MI fejlesztését: az elmúlt két hónapban több mérnöki, kutatási és termékfejlesztő csapatot szervezett át, hogy forradalmasítsa hangmodelleit...