MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

csütörtök 11:50

Az MI-alapú játéktutorialok rémálma: a Sony új szintre lép

🤓 A videojátékok tutorialjai régóta okoznak fejfájást a játékosoknak és fejlesztőknek egyaránt...

csütörtök 11:34

Az Alphabet tarolt a Wall Streeten: MI-őrület és pénzeső

💵 Az Alphabet lehengerlő, 65%-os árfolyam-emelkedéssel zárta a 2025-ös évet, amire 2009 óta nem volt példa...

csütörtök 11:17

Az űr pezsgője: elképesztő galaxisütközésre bukkantak

🌌 A Champagne-halmaz névre keresztelt csillagászati jelenség szilveszter éjszakáján történt felfedezése óta ejti ámulatba a szakértőket: két hatalmas galaxishalmaz ütközése mutatkozik meg benne, a képeken pedig szinte pezsgőbuborékszerű foltok formájában láthatók a felforrósodott gázok...

csütörtök 10:57

A januári PS Plusban autóőrület, Mickey‑újrafestés és barlangi túlélés – azonnal töltsd!

Új év, új játékok: 2026 januárjában három izgalmas címmel bővül a PlayStation Plus Essential kínálata...

csütörtök 10:49

A NASA legnagyobb könyvtára lehúzza a rolót – hová kerül a tudás?

A NASA súlyos költségmegszorítások és telephely-összevonások közepette kénytelen bezárni a legnagyobb könyvtárát, így veszélybe kerül tízezernyi történelmi és tudományos dokumentum, amelyek jelentős része még nem digitalizált...

csütörtök 10:43

Az amerikai dollár jövője: összeomlás vagy fordulat 2026-ban?

Az idei év kifejezetten gyengén alakult a dollár számára, hiszen a valuta több mint 9 százalékot veszített értékéből a főbb devizákkal szemben – ilyen rossz évet legutóbb nyolc éve látott...

csütörtök 10:35

Az ütköző spirálgalaxisok még soha nem voltak ilyen lélegzetelállítóak

Lenyűgöző részletességgel sikerült megörökíteni két ütköző spirálgalaxist a NASA James Webb-űrteleszkópja (James Webb Space Telescope, JWST) és a Chandra röntgenobszervatórium (Chandra X-ray Observatory) adatainak egyesítésével...

csütörtök 10:30

Az MI 2026-ban: Már megkerülhetetlen a digitális inas

🤖 Az elmúlt év végleg átalakította az MI helyét: a kezdeti mutatványokból állandó társunk lett a mindennapokban, és az emberek már nem csupán újdonságként tekintenek rá...

csütörtök 10:23

Az új brit dróntörvények 2026-tól mindent fenekestül felforgatnak

Érdemes megérteni, hogy az Egyesült Királyságban jelentősen átalakultak a drónokra vonatkozó szabályok, amelyek 2026...

csütörtök 10:15

Az MI 2026-ra tényleg elveszi a munkánkat?

🤔 Egyre nagyobb a bizonytalanság a munkaerőpiacon az MI rohamos fejlődése miatt...

csütörtök 10:10

Az év, amikor a játékosok álma valóra válik: 2026

2026 már most bombasikerű gamer évnek ígérkezik: seregnyi folytatás, új franchise, nagy visszatérő és izgalmas sztori vár mindenkire...

csütörtök 09:57

Az ősi perui trófeafej rejtélyének kulcsa: egy ritka rendellenesség

Egy mumifikálódott fej vizsgálata új megvilágításba helyezi az andoki társadalmak hozzáállását a születési rendellenességekkel élőkhöz...

csütörtök 09:50

A hiányzó fehérje, amely felgyorsítja immunrendszered idő előtti öregedését

Ahogyan telnek az évek, az ősz hajszálak és a gyengülő izmok mellett az immunrendszerünk is változik...

csütörtök 09:44

Az univerzum mégis kockajáték: Bohr diadalmaskodott Einstein felett

🎲 Egy lényeges szempont, hogy a kínai tudósoknak most először sikerült megvalósítaniuk azt a híres gondolatkísérletet, amellyel Albert Einstein majdnem száz éve próbálta cáfolni Niels Bohr elméletét a kvantummechanikában...

csütörtök 09:36

Az Nvidia H200-ért kitört a vásárlási őrület Kínában

🔥 Az Nvidia H200-as gyorsítókra sosem látott kereslet alakult ki Kínában, miután enyhítettek az amerikai exportkorlátozásokon...

csütörtök 09:30

Az új New York-i polgármester beiktatásán száműzik a techkütyüket

🚫 A 2026-os New York-i polgármesteri beiktatáson, ahol Zohran Mamdani lép hivatalba, szigorú tiltólistát hirdettek, amelyen meglepő módon külön megnevezték a Flipper Zero-t és a Raspberry Pi-t...

csütörtök 09:22

Az Eaton lemaradt az MI‑őrületről – most jön a nagy visszatérés?

🚀 Érdekes, hogy az MI-berobbanás éveiben szerzett lendület ellenére az Eaton részvényárfolyama 2025-ben nem tudta tartani a lépést a többi ipari óriással...

csütörtök 09:16

A fény hajtja az arany nanorészecskéket: tisztább ammónia a végeredmény

💡 A kutatók azt vizsgálják, miként lehetne fenntarthatóbban előállítani az egyik legfontosabb ipari vegyületet, az ammóniát, amely a műtrágyák, tisztítószerek és robbanóanyagok gyártásának is alapja...

csütörtök 09:09

Az Amazon rejtett filmes gyöngyszemei, amikről nem hallottál

🎥 Az Amazon Prime Video kínálata valóságos kincsesbánya azok számára, akik szeretik a mozifilmeket – különösen a 2011 előtti alkotásokat...