MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 20:52

A CES 2026-on aranyos és félelmetes robotok szabadulnak el

🤖 Érdemes megvizsgálni, hogy a 2026-os Las Vegas-i CES vásáron milyen változatos és meglepő robotokkal találkozhattunk...

MA 20:35

Az amerikai kriptoautomaták napjai meg vannak számlálva?

💸 A kriptovaluta-automaták, vagyis azok a gépek, amelyek készpénzt alakítanak át digitális valutává, az utóbbi években az átverések első számú eszközévé váltak Amerikában...

MA 20:18

Az új óriáskígyó felfedi Amazónia legmélyebb titkát

Egy lényeges szempont, hogy az amazóniai esőerdő mélyén nemrég egy új, eddig ismeretlen óriásanakonda-faj bukkant elő a tudósok előtt...

MA 20:02

Az MI nem váltja ki az embert, mégis minden PC-be költözik

🤖 A Lenovo vezérigazgatója, Yuanqing Yang szerint 2026 végére a vállalati piacra szánt számítógépek fele már MI-alapú lesz...

MA 19:49

Az első vészhelyzeti ISS-evakuálás: bajba jutott űrhajósok hazatérnek

🚀 Négy űrhajós térhet vissza a Földre először kényszerű evakuálás miatt, miután egyikük rejtélyes, súlyos egészségügyi problémával küzd az ISS-en...

MA 19:34

Az Ariane–6 újrafelhasználása: Európa Frankenstein-rakétája?

Az európai űripar évtizedekig a hagyományos rakéták egyszer használatos, eldobható modelljéhez ragaszkodott, miközben a világban egyre nagyobb hangsúlyt kapott az újrahasználat...

MA 19:18

Az év, ami nem négyzetszám, mégis izgalmas: 2026 matematikai titkai

🧠 Érdemes megérteni, hogy bár a 2026-os év első ránézésre nem tűnik rendkívülinek, számos matematikai érdekességet rejt...

MA 19:01

Az eddigi leglassabb Windows? A Windows 11 legnagyobb bakijai

A legtöbb felhasználó szerint a Windows 11 nemcsak tele van felesleges funkciókkal, amelyeket nehéz kikapcsolni, hanem teljesítményben is nagy csalódást okoz...

MA 18:50

A kihalt dinoszauruszok és a szunnyadó fekete lyuk rejtélyei

🦖 Boldog új évet! Idén is akadnak meglepő felfedezések: például hogy a vöröshajúak hajpigmentje különleges, és egy regeneratív nanotechnológia képes lehet védeni az agyat...

MA 18:33

Az iLO 6-ban ez változik, ha Essentialsról Advancedre lépsz

Sokan megszokták, hogy az iLO Advanced funkcióit használják a HPE szervereken, de vannak rendszerek, amelyek csak az alap Essentials kiadással érkeznek...

MA 18:19

Az okosszemüvegek forradalma: a CES 2026 legütősebb modelljei

👓 Az idei CES kiállításon Las Vegasban az okosszemüvegek vitték a prímet, soha nem látott választékban...

MA 17:49

Az ír útlevélbotrány: 13 ezer hibás okmányt hívnak vissza

Írország külügyminisztériuma csaknem 13 000 útlevelet hív vissza, mert egy szoftverfrissítés hibája miatt hibásan nyomtatták ki azokat...

MA 17:33

A kialvatlanság éveket rabol az életedből

🛍 Érdemes megvizsgálni, milyen komoly következményei lehetnek a kevés alvásnak. Rendszeresen kevesebb mint hét órát aludni nemcsak fáradttá tesz, hanem években mérhetően megrövidítheti az életedet...

MA 17:18

Az űróriás Pandora hamarosan a rejtélyes exobolygók nyomába ered

🚀 A Pandora nevű, hűtőszekrénynyi műhold minden eddiginél pontosabban vizsgálja majd a Naprendszeren túli bolygókat...

MA 17:02

A bitcoin 2050-re 2,9 millió dollárt érhet – veri az aranyat?

💵 A VanEck alapkezelő szerint a bitcoin elképesztő, 2,9 millió dolláros (kb...

MA 16:50

Az űrállomás első orvosi mentése: ki a beteg űrhajós?

A NASA váratlanul, néhány nappal a tervezett időpont előtt hazahozza a Nemzetközi Űrállomás négyfős legénységét az egyik űrhajósnál fellépő egészségügyi probléma miatt...

MA 16:17

Az iPhone Air 2: szebb kijelző, nagyobb akku – de kinek kell?

📱 Az Apple hamarosan újít az iPhone Air-szérián. Bár a jelenlegi modell nem váltotta be igazán a vállalat reményeit, a pletykák szerint 2027-ben jöhet az iPhone Air 2...

MA 16:04

Az elegáns Goldring GR3 hódít, de egy dolog beárnyékolja

🎧 Érdemes észben tartani, hogy a Goldring hosszú kihagyás után, mintegy húsz év elteltével tér vissza a lemezjátszók világába, méghozzá egy olyan készülékkel, amely egyenlő arányban kínál kényelmet, minőséget és látványos megjelenést...

MA 15:49

Az életért folyik a harc a Fülöp-szigeteki lerakóomlás után

A Fülöp-szigeteki Cebu városában már napok óta tart a küzdelem a Binaliw nevű hulladéklerakó összeomlása után, ahol a mentők versenyt futnak az idővel, hogy rátaláljanak a több mint harminc eltűnt dolgozóra...