MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 14:49

Az MI padlóra küldte a RedVDS bűnbandát

🔫 A Microsoft sikeresen megbénította a RedVDS-t, egy hatalmas kibercsalásra épülő platformot, amely eddig csak az Egyesült Államokban 40 millió dollárnyi (kb...

MA 14:33

A svéd egészségőrületért megőrül egész Amerika

Daniel Ek, a Spotify alapítója és üzlettársa, Hjalmar Nilsonne újabb nagy dobásra készül: egészségügyi startupjuk, a Neko Health New Yorkba terjeszkedik, miután Európában már jelentős sikereket értek el...

MA 14:17

Az éhező galaxis, amit saját fekete lyuka falt fel

Egy különös, ősi galaxis, a GS-10578 – becenevén Pablo galaxisa (Pablo’s Galaxy) – sorsa olyannyira szokatlan, hogy még a csillagászokat is meglepte...

MA 14:02

Az új Forza Horizon 6 májusban jön – tényleg Japánban játszódik?

Rejtélyes hirdetés tűnt fel néhány játékosnál a Forza Horizon 5-ben, amely májusi premiert és érdekes újdonságokat sejtet a régóta várt Forza Horizon 6 esetében...

MA 13:50

Az új Raspberry Pi AI HAT: 8 GB RAM sem teszi MI-mágussá

🤔 A legújabb Raspberry Pi AI HAT egy Hailo 10H processzorral és 8 GB RAM-mal érkezett, helyi MI-modellek futtatásához...

MA 13:33

Lehull a lepel az újszülöttek rejtett cukorbetegségéről

🧠 A tudósok egy eddig ismeretlen, újszülötteket érintő cukorbetegség egyik típusát azonosították, amelyet egyetlen gén hibája okoz...

MA 13:18

Az új Gemini: a személyre szabott MI kora most kezdődik

💡 Ilyen eset például, amikor egyszerűen csak egy autógumi cseréjéhez keresel információt, és nem akarsz a parkolóig rohangálni a rendszámért vagy a pontos gumiméretért, mert éppen sorban állsz...

MA 13:03

A nyílt forrású MI már az infografikákban is veri a Google-t

📊 2026 elején az MI két legfontosabb fejleménye a felhasználók számának gyors növekedése, illetve a lenyűgöző új képgenerátor modellek megjelenése, amelyek képesek bonyolult, szövegközpontú képeket – például infografikákat, prezentációkat vagy műszaki ábrákat – gyorsan és pontosan előállítani...

MA 12:49

Az új Galaxy S26 Plus kijelzője csúnyán leszerepel

A Samsung hamarosan megkezdi a Galaxy S26 Plus tömeggyártását, és a hónap végén már sor kerül a hivatalos bemutatóra...

MA 12:34

A kínai vas az MI trónjára tör: a Huawei nagy dobása

🧬 A kínai Zhipu AI (Z.ai) bejelentette, hogy teljesen kínai, Huawei-hardveren, saját fejlesztésű MI-modellt betanított, ezzel pedig elsőként hozott létre fejlett modellt kizárólag hazai technológiával...

MA 12:17

Az FTC öt évre megtiltotta a GM-nek a sofőrök helyadatainak értékesítését

Az amerikai Szövetségi Kereskedelmi Bizottság (FTC) megállapodott a General Motorsszal (GM) és leányvállalatával, az OnStarral, miután kiderült, hogy a vállalatok több millió ember helymeghatározási és vezetési adatait gyűjtötték és adták el hozzájárulás nélkül...

MA 12:02

A Wikipédia, ami lélegzik: 25 éve együtt írjuk a világot

📚 25 éve, 2001. január 15-én indult a Wikipédia, amely mára internetes tudáskatalógussá nőtte ki magát: több mint 65 millió szócikkével havonta közel 15 milliárd megtekintést gyűjt...

MA 11:49

A Google nagy dobása: ragasztó nélkül cserélhető akkumulátor

🔋 Az okostelefonok, tabletek és egyéb kütyük akkumulátorait eddig szinte minden gyártó erős ragasztóval rögzítette, hogy a készülék megőrizze víz- és porállóságát, karcsúságát, valamint a vezeték nélküli töltés is támogatott legyen...

MA 11:33

Az új Netflix-őrület: Pete Davidson és Michael Irvin podcastjai tarolnak

🎥 A Netflix komolyan rákapcsolt a podcastokra, és januárban két vadonatúj videósorozattal bővíti kínálatát...

MA 11:17

A Gemini MI végre megérkezik az androidos Chrome-ba

💡 Úgy tűnik, hogy a Google új funkcióval kísérletezik: a Gemini nevű MI-t beépítené az androidos Chrome böngészőbe, hogy mobilon is ügynökszerű, azaz önálló döntéseket hozó szolgáltatásokat kapjunk...

MA 10:57

Az ingyenes Starlink rést üt Irán digitális blokádján

🚀 A SpaceX jelentősen megkönnyítette az iráni tüntetők számára, hogy kikerüljék a kormány szigorú netblokádját: a Starlink műholdas internet immár ingyenesen használható Iránban, amennyiben valaki rendelkezik a szükséges vevőberendezéssel...

MA 10:51

Az Animal Crossing: New Horizons 3.0 legnagyobb újításai

Érdemes megvizsgálni, hogy az Animal Crossing: New Horizons legújabb, 3.0-s frissítése mennyi újdonságot rejt...

MA 10:44

Az MS-S1 Max, a Ryzen MI mini PC-k új királya

👑 A Minisforum új dobása, az MS-S1 Max mini-PC jelentős mérföldkövet jelent a kisméretű, de brutális erőre képes számítógépek világában...

MA 10:37

Az új Palo Alto tűzfalhiba megbéníthatja a vállalati védelmet

⚠ A Palo Alto Networks legújabb, magas kockázatú sérülékenységét már javította, de a hibát kihasználva támadók egyszerűen le tudják állítani a vállalat tűzfal-szolgáltatásait, ami teljes rendszereket tesz védtelenné egy szolgáltatásmegtagadási (DoS) támadás során...