MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 06:50

Az űrben tündököl az óriási Karácsonyfa-halmaz

🎄 Az NGC 2264 egy bámulatos, aktív csillagkeletkezési régió, amely hozzávetőleg 2 700 fényévre található a Földtől, a Monoceros (Egyszarvú) csillagkép halvány sávjában...

MA 06:43

Az önvezető taxik is megbolondultak a karácsonyi viharban

🚗 Waymo ismét leállította a robotaxi-szolgáltatást San Franciscóban, miután a Nemzeti Meteorológiai Szolgálat villámárvíz-veszélyre figyelmeztetett...

MA 06:37

Az Abbott hibája már hét cukorbeteg életét követelte

⚠ A cukorbetegség diagnózisa sokak életére óriási hatással van, hiszen hosszú távon a mindennapok folyamatos kontrolljára kényszerít...

MA 06:28

Az ál-MAS oldal PowerShell-vírussal támad

Egyre több Windows-felhasználó számol be arról, hogy a Microsoft Activation Scripts (MAS) aktiváló eszközhöz hasonlító hamis weboldal miatt PowerShell-alapú kártevő, a Cosmali Loader fertőzte meg a gépét...

MA 06:22

Az MI hozza a profitot, de az ember a lényeg

Az internet a kilencvenes évek végén kezdett elterjedni, de Miro Mitev, a SmartWealth Asset Management vezérigazgatója már akkor a mesterséges intelligencia lehetőségeit kutatta...

MA 06:15

Az Apple és a Google igazoltat: jön a digitális személyi

💳 Az Apple és a Google is lehetővé tették, hogy digitális útlevelet vagy jogosítványt ments el a telefonodra, így már több mint 250 amerikai repülőtéri ellenőrzőponton elegendő az iPhone-odat vagy Android-készülékedet felmutatni...

MA 06:05

Történelmi események a mai napon (December 26.)

Viharos csaták, fordulópontok és első alkalmak: ezen a napon koronáztak királyt Paviában, dőlt el a Battle of Trenton (Trentoni csata) sorsa, süllyedt el a Scharnhorst, és ért véget a Bastogne ostroma...

MA 06:02

A világegyetem utolsó visszhangja: a fekete lyukak suttogása

Jellemző példa erre, hogy amikor fekete lyukak összeütköznek, erejük hullámként terjed szét a téridőben – akárcsak egy falhoz ütött harang zúgása...

csütörtök 20:50

Az idén csak gurul a PlayStation-szekér – és ez így rendben

🎮 2025 nem hozott nagy meglepetéseket a konzolpiac egyik óriásánál. Miközben a rivális Xbox háza táján a botrányokból sem volt hiány, a PlayStation csendes, magabiztos évvel folytatta útját...

csütörtök 20:33

A népszerű fájdalomcsillapító veszélyesebb lehet, mint hinnénk

Fontos kérdés, mennyire biztonságos a népszerű fájdalomcsillapító, a tramadol a krónikus fájdalomban szenvedők számára...

csütörtök 20:17

Az önvezető taxik ajtaját végül mégis emberek csukják

A Waymo önvezető robotaxijai gond nélkül szelik át a városi utcákat, de gyakran megbénulnak, ha az utasok nyitva felejtik az ajtót...

csütörtök 20:02

Az olcsó PC-memória később drágán visszaüthet

Az utóbbi hónapokban jelentősen megdrágultak a RAM-modulok, emiatt sok PC-gyártó próbálja megfékezni a kész PC-k árait, gyakran régebbi technológiát alkalmazva...

csütörtök 19:50

Az új Nintendo Switch 2-re váltás: villámgyors, gondtalan játékátvitel

A Nintendo Switch 2-re váltás izgalmas lépés: nagyobb kijelző, gyorsabb hardver, új funkciók várnak rád...

csütörtök 19:33

A mesterséges intelligencia átírja a játékszabályokat: 2025 legkapósabb állásai

2025-ben az MI minden várakozást felülmúlt: a cégek több mint 199 milliárd forintot fektettek be a technológiába, ami 75%-os növekedést jelent 2024-hez képest...

csütörtök 19:17

Az egyre forróbb óceánok szuperhurrikánokat szülnek – kell új kategória?

🌀 Egy lényeges szempont, hogy az óceánok melegedése új szintre emelte a hurrikánok erejét, és már a jelenlegi 5-ös kategória fölötti, rekorder szélviharokat is látni...

csütörtök 19:01

A Gmail-címedet végre átírhatod – mutatjuk, hogyan

🖋 A Google lehetővé teszi, hogy végre megváltoztasd a @gmail.com végű e-mail-címedet, vagy új aliasokat (álnévre szóló e-mail-címet) hozhatsz létre – derült ki egy nemrég közzétett támogatási dokumentumból...

csütörtök 18:49

Az Nvidia rekordüzletben, 20 milliárd dollárért bekebelezi a Groq technológiáját

Az Nvidia rekordösszegű, 7200 milliárd forintért (20 milliárd USD) vásárolja meg a MI-gyorsító chipeket fejlesztő Groq technológiáját...

csütörtök 18:35

A turkálóban talált ősi leletek: botrány vagy kincs?

Egy meglehetősen furcsa e-mail futott be 2024 tavaszán a Simon Fraser Egyetem régészeti tanszékének egyik oktatójához...

csütörtök 18:19

A nagy lecke: Buffett legdurvább melléfogása a Berkshire-nél

Egy lényeges szempont, hogy Warren Buffett számára a Berkshire Hathaway felvásárlása nemcsak pénzügyi történet, hanem élete egyik legnagyobb tanulsága is...