MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?



Legfrissebb posztok

vasárnap 22:59

Be lehet tépni, ha valaki varangyot nyalogat?

A varangyok nyalogatása köré sok városi legenda szövődött, de valójában komoly veszélyekkel jár, és aligha vezet pszichedelikus élményhez...



MA 07:29

Az MI-alapú Cercli teljesen átalakítja a HR-t a Közel-Keleten

💻 A Cercli 12 millió dolláros (kb. 4,2 milliárd forintos) befektetést szerzett, hogy gyökeresen átalakítsa a Közel-Kelet és Észak-Afrika (MENA) régió HR-szoftverpiacát...

MA 07:22

Musk újabb forradalma, a SpaceX-nek távoznia kellett a határvidékről

Egy évvel azután, hogy a SpaceX önkényesen elfoglalt egy magánterületet az USA és Mexikó határán, a Cards Against Humanity elérte, hogy a cég végre elhagyja a területet...



MA 07:15

Az új Windows-frissítés miatt összeomlik a bejelentkezés

🚫 A Microsoft nemrég elismerte, hogy az augusztus 29-én vagy azt követően kiadott Windows-frissítések számos számítógépen bejelentkezési és hitelesítési problémákat okoznak...

MA 07:08

Az iPhone végre megszabadul a folyékony üveg átlátszóságától

📷 Az iOS 26.1 negyedik bétája megjelent, és végre lehetőséget ad az iPhone-felhasználóknak arra, amire régóta vágytak: állítható a Folyékony Üveg (Liquid Glass) felület átlátszósága...



MA 07:02

A Periodic Labs, ahová 90 milliárd forintot fektettek

💸 A mesterséges intelligencia és az anyagtudomány találkozásából született Periodic Labs nemrég robbant be a nyilvánosság elé...



kedd 22:59

Az MI elárasztja a Yelp-et: új chatbot, varázslatos menünéző

🤔 Az őszi frissítéssel a Yelp látványosan beépíti az MI-t a szolgáltatásaiba: a felhasználók már minden vállalkozási kategóriában használhatják a továbbfejlesztett Yelp Assistant chatbotot, amely nemcsak gyorsan válaszol a kérdésekre, hanem helyi információkra, a vállalkozás weboldalára és más felhasználók értékeléseire is támaszkodik...

kedd 22:01

Az öngyilkos sejtek működését egy kristály indítja el

Az immunrendszer elképesztő hatékonysággal védi a szervezetet a vírusoktól, de ha a védelem félremegy, egészséges sejtek is pusztulhatnak...



kedd 21:59

Az életveszélyes rés támadja a WatchGuard tűzfalakat

⚠ Majdnem 76 000 WatchGuard Firebox hálózatbiztonsági eszköz került veszélybe világszerte egy kritikus sérülékenység (CVE-2025-9242) miatt, amely lehetővé teszi a távoli támadók számára, hogy hitelesítés nélkül futtassanak kódot ezeken az eszközökön...

kedd 21:30

Az Nvidia még mindig Tajvanra támaszkodik, hiába az új arizonai chipgyár

🌐 Az Nvidia amerikai gyártása már javában zajlik, és Jensen Huang vezérigazgató örömmel ünnepli az első Blackwell processzorlapot, amely a TSMC arizonai gyárából került ki...

kedd 21:01

Az EU megállítja a műanyag granulátumok súlyos szennyezését

Apró műanyag granulátumok, vagyis nurdle-ök nap mint nap észrevétlenül kerülnek a természetbe...

kedd 20:59

Véget ér a The Sims Mobile: Bezárják a kedvenc játékot

😔 Az EA hivatalosan bejelentette, hogy a The Sims Mobile 2026. január 20-án végleg bezár, így ezt követően már nem lesz elérhető...

kedd 20:30

Az Amazon óriási leállása megbénította a netet

🔴 Hétfő reggel órákon keresztül elérhetetlenné vált rengeteg népszerű online szolgáltatás, köztük az Amazon, az Alexa, a Snapchat és a Fortnite is, miután súlyos kiesés történt az Amazon Web Services (AWS) felhőszolgáltatásában...



kedd 20:01

Az időjárási ballon törte be a repülő ablakát, nem űrszemét

Rejtélyes baleset történt múlt héten egy United Airlines járaton, amikor a Denver–Los Angeles útvonalon a pilótafülke egyik nagyméretű ablakát súlyosan megrongálta valami...



kedd 19:59

Az Amazon tömegesen gépesítene: több százezer munkahely veszhet el?

Az Amazon titkos belső dokumentumai szerint a cég komoly terveket sző arra, hogy 2033-ra több mint 600 ezer amerikai munkavállalót robottal váltson fel...

kedd 19:30

Az új Claude Code: végre itt a böngészős verzió, de nem ez az igazi újdonság

A Claude Code régóta népszerű MI-alapú kódgeneráló eszköz, és most végre megkapta webes felületét is, amelyhez már a GitHub-tárhelyet is hozzá lehet kapcsolni...



kedd 19:01

Tényleg rábíznánk ennyi pénzt Elon Muskra, a Tesla fizetése minden képzeletet felülmúl

A Tesla részvényesei előtt grandiózus döntés áll: megszavazzák-e azt a fizetési csomagot, amely az elkövetkező évtizedben több mint 370 ezer milliárd forintot fizethet Elonnak?..

kedd 18:58

Az amerikai atomfegyvergyárat törték fel külföldi hackerek

Augusztusban külföldi hackerek sikeresen feltörték az Egyesült Államok egyik legfontosabb nukleáris fegyvergyárát, a Kansas City Nemzeti Biztonsági Központot (Kansas City National Security Campus, KCNSC), méghozzá ki nem javított Microsoft SharePoint hibák kihasználásával...

kedd 18:29

Az égből érkező rejtélyes tárgy csapódott egy utasszállítóba

Egy furcsa, az „űrből” érkező tárgy csapódott egy United Airlines repülőgép ablakába Utah felett, amely Denverből Los Angelesbe tartott...