MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 16:18

A pénzed turbója: egyszerű lépések a gyorsabb célokért

Rendszeres pénzügyi stressz: nem kell mindent túlbonyolítani A pénzügyek kezelése rengeteg ember számára jár állandó lelkiismeret-furdalással: folyamatosan azt sugallják, hogy a megtakarításon, a befektetésen és persze az adók optimalizálásán is dolgozni kell...

MA 16:04

Az Xgimi Horizon 20 Max: Luxusmozi és gamer élmény egy projektorban

Ebből következően érdemes megérteni, hogy a hordozható projektorok piacán is megjelentek a valódi prémium modellek...

MA 15:50

Az oroszországi aranyáldozatok rejtélye: 2400 éves kincs került elő

🏁 A dél-uráli Vysokaya Mogila sírmezőn egyedülálló, 2 400 éves áldozati komplexumot tártak fel orosz régészek, amely új fényt vet a nomádok temetkezési rítusaira...

MA 15:35

Az ingatlanpiac, amely még Warren Buffettet is szabályszegésre csábította

Érdekes felvetés, hogy még a legendás Warren Buffett is hajlandó volt felrúgni saját, kőbe vésett szabályait a mostani ingatlanpiaci körforgásban...

MA 15:04

Az óriás Doogee V Max Play: túlélőmobil vagy hordozható tégla?

A Doogee V Max Play nem aprózta el a strapatelefon fogalmát: ez a készülék méretével, tömegével és funkciókínálatával messze túlmutat a rutinos túrázók és kalandorok elvárásain...

MA 14:17

Az afrikai sertéspestis miatt öt spanyol labor került gyanúba

🐷 Spanyolországban pánikot okozott az afrikai sertéspestis felbukkanása, ezért a hatóságok öt laboratóriumban is vizsgálatot folytatnak, hogy kiderítsék, honnan indult ki a fertőzés...

MA 13:49

Az elviselhetetlen záptojásszag lehet a körömgomba végső ellenszere

Különösen igaz ez akkor, ha valaki évek óta küzd makacs körömgombával, amely semmilyen kezelésre nem reagál igazán...

MA 13:34

Az ítélet sorsa a megbánáson múlik – felismerjük az őszintét?

👳 Az igazságszolgáltatás világában a megbánás jelentőséggel bír – nemcsak a filmes bírósági tárgyalások kulcspillanataiban, hanem a valódi ítélethozatalban is...

MA 13:18

A valaha hallott legbrutálisabb hang: vulkánkitörés vagy meteoritbecsapódás?

💥 Érdemes megvizsgálni, mi számít a leghangosabb zajnak, amit valaha feljegyeztek a Földön...

MA 12:50

A techcégek legnagyobb aduja az MI-korszakban: a kiberbiztonság

🔒 Ma már a kiberbiztonság jóval többet jelent egyszerű IT-feladatnál: a technológiai vállalatok számára stratégiai eszközzé vált, amely közvetlenül befolyásolja a vállalat értékét, növekedését és ellenálló képességét...

MA 12:33

Az antivirális szerek rejtett csapdája: a vírusok társas élete

💉 Felmerül a kérdés, hogy a vírusok mennyire befolyásolják egymás sikerét a szervezetünkben, és milyen hatással van ez az antivirális kezelésekre...

MA 12:18

Az új Jolla Phone: független linuxos mobil – megéri kivárni?

Érdekes felvetés, hogy egy olyan piacon, ahol szinte minden okostelefon két nagy rendszer között osztozik, a Jolla ismét próbálkozik egy valódi, Linux-alapú, önálló telefon piacra dobásával...

MA 12:01

Az új holdrengések keresztülhúzhatják a NASA számításait

🌑 Különösen igaz ez akkor, ha egy biztonságos holdbázis tervezése a tét: most kiderült, hogy a Hold felszínén nemcsak meteoritbecsapódások formálták a domborzatot, hanem főként holdrengések rázták meg az Apollo 17 leszállóhelyének környékét...

MA 11:49

A siker titka: empátia és józan ész kéz a kézben

Az emberek gyakran vitáznak azon, hogy az empátia vagy a józan ész segít-e jobban a döntésekben, amikor másokon kell segíteni...

MA 11:18

Mi köti össze az elszigetelt emberiséget, az űrpörgettyűt és a koponyagödröt?

🧠 Felmerül a kérdés, hogy mennyire különleges volt egy elszigetelt emberi populáció Dél-Afrikában, hogyan borította fel Kína az aszály elleni védekezéssel a saját éghajlatát, és mi a magyarázata egy titokzatos mexikói koponyagödörnek...

MA 11:00

Az óriáspiac az Amazonas esőerdőjének sírját ássa

Fontos kérdés, hogy hol húzódik a határ a gazdasági fejlődés és a bolygó legnagyobb esőerdőjének túlélési esélyei között...

MA 10:25

Az AGM G3 Pro: páncéltelefon, amiért mélyen a zsebbe nyúlsz

🛡 Az AGM G3 Pro kiemelkedik a strapabíró telefonok mezőnyéből elegáns megjelenésével és meglepően hasznos hőkamerájával...

MA 10:14

A Google újabb pofont kap: évente újratárgyalják a keresőmegállapodásokat

A Google-nek mostantól minden olyan szerződést évente újra kell tárgyalnia, amelyben keresője vagy MI-alkalmazása alapértelmezettként szerepel okostelefonokon és más eszközökön...

MA 10:08

Az Apple-től újabb kulcsember távozhat: fogy a vezetői gárda

🚨 Az Apple hardverfejlesztésért felelős vezetője, Johny Srouji a hírek szerint komolyan fontolgatja a távozását...