MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 20:17

Az önvezető taxik ajtaját végül mégis emberek csukják

A Waymo önvezető robotaxijai gond nélkül szelik át a városi utcákat, de gyakran megbénulnak, ha az utasok nyitva felejtik az ajtót...

MA 20:02

Az olcsó PC-memória később drágán visszaüthet

Az utóbbi hónapokban jelentősen megdrágultak a RAM-modulok, emiatt sok PC-gyártó próbálja megfékezni a kész PC-k árait, gyakran régebbi technológiát alkalmazva...

MA 19:50

Az új Nintendo Switch 2-re váltás: villámgyors, gondtalan játékátvitel

A Nintendo Switch 2-re váltás izgalmas lépés: nagyobb kijelző, gyorsabb hardver, új funkciók várnak rád...

MA 19:33

A mesterséges intelligencia átírja a játékszabályokat: 2025 legkapósabb állásai

2025-ben az MI minden várakozást felülmúlt: a cégek több mint 199 milliárd forintot fektettek be a technológiába, ami 75%-os növekedést jelent 2024-hez képest...

MA 19:17

Az egyre forróbb óceánok szuperhurrikánokat szülnek – kell új kategória?

🌀 Egy lényeges szempont, hogy az óceánok melegedése új szintre emelte a hurrikánok erejét, és már a jelenlegi 5-ös kategória fölötti, rekorder szélviharokat is látni...

MA 19:01

A Gmail-címedet végre átírhatod – mutatjuk, hogyan

🖋 A Google lehetővé teszi, hogy végre megváltoztasd a @gmail.com végű e-mail-címedet, vagy új aliasokat (álnévre szóló e-mail-címet) hozhatsz létre – derült ki egy nemrég közzétett támogatási dokumentumból...

MA 18:49

Az Nvidia rekordüzletben, 20 milliárd dollárért bekebelezi a Groq technológiáját

Az Nvidia rekordösszegű, 7200 milliárd forintért (20 milliárd USD) vásárolja meg a MI-gyorsító chipeket fejlesztő Groq technológiáját...

MA 18:35

A turkálóban talált ősi leletek: botrány vagy kincs?

Egy meglehetősen furcsa e-mail futott be 2024 tavaszán a Simon Fraser Egyetem régészeti tanszékének egyik oktatójához...

MA 18:19

A nagy lecke: Buffett legdurvább melléfogása a Berkshire-nél

Egy lényeges szempont, hogy Warren Buffett számára a Berkshire Hathaway felvásárlása nemcsak pénzügyi történet, hanem élete egyik legnagyobb tanulsága is...

MA 17:01

Az Nvidia bekebelezi a feltörekvő Groq-ot

🦁 Az Nvidia exkluzív licencszerződést kötött a Groq nevű feltörekvő MI-chipgyártóval, és ráadásul magához csábította a Groq alapítóját, Jonathan Rosst, elnökét, Sunny Madrát, valamint több kulcsembert is...

MA 15:50

Az új Galaxy Watch rejtett képességei: három funkció, amit kár kihagyni

A legtöbben egy Samsung Galaxy Watch-ot főleg fitneszkövetésre, értesítésekre és alapvető kényelmi funkciókra vásárolnak...

MA 15:34

A karácsonyi Powerballon milliárdok a tét – mennyit viszel haza?

🎁 Karácsonykor szinte mesébe illő jackpottal csábít a Powerball: a karácsony esti sorsolás főnyereménye elérheti a 660 milliárd forintot (kb...

MA 15:18

A kvantumforradalom kezdete: hibajavítás, ami mindent átír

⚡ Megvizsgálandó, hogy mennyire várható a kvantumszámítástechnika kulcsát jelentő, stabilabb qubitek felé való áttérés a következő években, érdemes visszatekinteni a kvantumhibajavítás elmúlt évtizedének látványos fejlődésére...

MA 15:02

Az új Ra & Write felforgatja a klasszikus Ra örökségét

Érdemes megvizsgálni, van-e élet az aukciós legendán túl: a Ra And Write Reiner Knizia közismert Ra társasjátéka alapján készült, de most egy könnyed, flip-and-write változatként jelent meg...

MA 14:52

Az olcsó fejhallgatók trónkövetelői: 9 verhetetlen ajánlat 36 ezer alatt

A minőségi fejhallgató ma már nemcsak a vastagabb pénztárcájúak kiváltsága. Bár a luxusmodellek ára akár 200 ezer forint fölé is szökhet, a tesztjeinket kiálló, 36 ezer forint (kb...

MA 14:35

Az év lencseforradalma: öt újdonság, amit muszáj kipróbálni

📷 A 2025-ös év nemcsak a kamerák számára hozott izgalmas újdonságokat, hanem a lencsék területén is valódi áttörés történt...

MA 12:49

A bolíviai hegyoldal, ahol 16 ezer dinoszaurusz járt

Több mint 16 000 dinoszaurusz lábnyomot tártak fel Bolíviában, a Carreras Pampa vidékén, a Torotoro Nemzeti Parkban...

MA 11:51

Az MI-járvány: véget ér az internet, vagy új korszak jön?

Ebből következően érdemes megérteni, hogy a mesterséges intelligencia (MI) rohamos fejlődése teljesen átalakítja, amit eddig az internetről és annak működéséről gondoltunk...

MA 11:34

Az űrbányászat már itt van: mit rejtenek az aszteroidák?

🚀 A Naprendszer kisbolygói, vagyis az aszteroidák nem csupán a tudomány, hanem a jövő űrbányászata számára is értékes kincsesbányák lehetnek...