MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

vasárnap 20:50

A lenyűgöző égi csoda, amely vetekszik a Teremtés oszlopaival

💫 Lenyűgöző felvételt közölt a Gemini Obszervatórium fennállásának 25. évfordulóján: a fotón az NGC 6820 jelű emissziós köd és az NGC 6823 nyílt csillaghalmaz ragyog, mintha a híres Teremtés oszlopai (Pillars of Creation) párját látnánk...

vasárnap 20:33

A legsúlyosabb ciklon csapott le: ezrek otthona dőlt romba, százak haltak meg

💧 A legsúlyosabb természeti katasztrófa rázta meg Sri Lankát, ahol heves ciklon pusztított; a hegyvidéki tartományokban még mindig földcsuszamlások és áradások fenyegetik a lakosságot...

vasárnap 20:20

A monstrum Doogee V Max LR: telefon vagy szerszámosláda?

A Doogee V Max LR egészen új szintre emeli a strapatelefon fogalmát: nemcsak elképesztően masszív, de igazi energiabajnok is a 20500 mAh-s akkumulátorával...

vasárnap 20:02

Az elveszett indián falvak előkerültek – tényleg igaza volt John Smithnek?

🌍 Emellett a Rappahannock folyó mentén, Virginiában végzett ásatások során végre sikerült azonosítani azokat az ősi indián falvakat, amelyeket a Jamestownból ismert John Smith több mint 400 éve említett...

vasárnap 19:49

A Simogo új csomagja visszarepít az iPhone-játékok aranykorába

🎮 A mobiljátékok világában ma már ritkaságszámba mennek az igazán kreatív indie alkotások, de volt idő, amikor az App Store-nak köszönhetően a kis fejlesztőcsapatok is hatalmas közönséghez tudták eljuttatni ötleteiket...

vasárnap 19:34

Az elveszett szavak nyomában: miért fordíthatatlan néha a nyelv?

Több nyelvet beszélve feltűnhet, hogy bizonyos szavakat egyszerűen képtelenség lefordítani. Egy japán tervező vágyódik a mono no aware iránt, amely egyfajta letisztult, időtlen szépség – angolul, sőt magyarul sincs rá igazán megfelelő szó...

vasárnap 19:17

Az évszázad játéka visszatért – kezdődik a láz!

Az év vége felé közeledve senki sem unatkozik, hiszen a legendás játék, amely hosszú évek óta sokak toplistáján szerepel, most újra hódít...

vasárnap 19:02

Az Amazon nagy fúziója az MI-szuperszerverekkel

Tipikus eset, amikor a technológiai verseny nem az egyediség felé visz, hanem a legjobb, működő mintát másolják a nagyok...

vasárnap 18:51

Az olcsó boltok ára a szegények bőrére megy

Az Egyesült Államokban rengeteg család támaszkodik olyan bolthálózatokra, mint a Family Dollar vagy a Dollar General, hiszen ezek a boltok ígérik a legalacsonyabb árakat alapvető háztartási cikkekből...

vasárnap 18:33

Az okosszemüveg, amely rémálommá vált: 13 év Google Glass után

Amikor a Google Glass 13 évvel ezelőtt megjelent, az egész világ álmodozni kezdett arról, milyen lesz, ha számítógép költözik az arcunkra...

vasárnap 18:18

Az ABCC4 titkos hálózata: új trükk a sejtszabályozásban

Amikor egy sejt kívülről üzenetet kap, egy ciklikus AMP (cAMP) nevű molekulával közvetíti ezt a jelzést...

vasárnap 17:50

Az újszülöttek B-hepatitisz oltása kikerülhet a kötelezőkből

Az Egyesült Államok járványügyi központjának (CDC) oltási tanácsadó bizottsága az eddigi gyakorlattól eltérően már nem javasolja egységesen, hogy minden újszülött kapjon hepatitis B elleni oltást születése után...

vasárnap 16:49

Vége lehet Hollywood aranykorának az új Netflix–Warner Bros.-óriással?

🎥 Nehéz elhinni, de a Netflix és a Warner Bros. közötti friss felvásárlási megállapodás máris felforgatta a teljes hollywoodi piacot...

vasárnap 16:34

A házi csodachip: több mint ezerszeres ugrás a garázslaborban

Fontos kérdés, hogy meddig juthat el egy lelkes egyetemista, ha házilag, garázsban barkácsolja össze saját integrált áramköreit...

vasárnap 16:18

A pénzed turbója: egyszerű lépések a gyorsabb célokért

Rendszeres pénzügyi stressz: nem kell mindent túlbonyolítani A pénzügyek kezelése rengeteg ember számára jár állandó lelkiismeret-furdalással: folyamatosan azt sugallják, hogy a megtakarításon, a befektetésen és persze az adók optimalizálásán is dolgozni kell...

vasárnap 16:04

Az Xgimi Horizon 20 Max: Luxusmozi és gamer élmény egy projektorban

Ebből következően érdemes megérteni, hogy a hordozható projektorok piacán is megjelentek a valódi prémium modellek...

vasárnap 15:50

Az oroszországi aranyáldozatok rejtélye: 2400 éves kincs került elő

🏁 A dél-uráli Vysokaya Mogila sírmezőn egyedülálló, 2 400 éves áldozati komplexumot tártak fel orosz régészek, amely új fényt vet a nomádok temetkezési rítusaira...

vasárnap 15:35

Az ingatlanpiac, amely még Warren Buffettet is szabályszegésre csábította

Érdekes felvetés, hogy még a legendás Warren Buffett is hajlandó volt felrúgni saját, kőbe vésett szabályait a mostani ingatlanpiaci körforgásban...

vasárnap 15:04

Az óriás Doogee V Max Play: túlélőmobil vagy hordozható tégla?

A Doogee V Max Play nem aprózta el a strapatelefon fogalmát: ez a készülék méretével, tömegével és funkciókínálatával messze túlmutat a rutinos túrázók és kalandorok elvárásain...