MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 14:17

A legújabb Windows 365-frissítés megint használhatatlanná teszi a Cloud PC-t

💥 A legutóbbi Windows 365-frissítés óta rengeteg felhasználó nem tud hozzáférni Microsoft 365-ös Cloud PC-jéhez...

MA 14:01

Az esők nem segítenek: egyre súlyosabb aszály vár ránk

🌧 Ahogy a Föld melegszik, Nyugat-Európában és Észak-Amerika nyugati részén egyre gyakoribbá és súlyosabbá válnak a mezőgazdasági aszályok – még akkor is, ha az éves csapadékmennyiség növekszik...

MA 13:49

A maine-i adatbotrány: 145 ezer ember egészségügyi adata veszélyben

Tavaly súlyos adatvédelmi incidens rázta meg a Central Maine Healthcare (CMH) rendszerét, amely több mint 145 ezer ember érzékeny adatait tette ki a támadóknak...

MA 13:33

A Meta bezárta három VR-stúdióját: vége egy újabb metaverzum-álomnak

💀 A Meta jelentős leépítéssel válaszolt a metaverzum üzletág problémáira, bezárva az Armature, a Sanzaru és a Twisted Pixel nevű VR stúdiókat...

MA 13:17

A bélflóra háborúja az erszényesekben: mikrobák a gyógyszerek ellen

🤿 A legújabb, 23 erszényes fajra kiterjedő kutatás jelentős újdonságokat hozott az őshonos ausztrál állatok bélrendszerének mikrobáiról...

MA 12:50

A jelszavaknál tényleg a méret számít?

Évek óta halljuk, hogy a hosszabb jelszó biztonságosabb. Rakj bele minél több karaktert, legyenek benne számok, szimbólumok, kis- és nagybetűk, és akkor már nagy gond nem lesz...

MA 12:34

Itt az Ammobia áttörése: olcsóbb, zöldebb műtrágya jön

🌱 Érdekes felvetés, hogy az ammónia, a világ egyik legfontosabb vegyszere, mindeddig kevés figyelmet kapott, pedig nélküle a mezőgazdaság gyakorlatilag működésképtelen lenne...

MA 12:01

Az amerikai bitcoin ETF-ek ismét rekordközelben száguldanak

📈 Az amerikai spot bitcoin ETF-ek három hónap óta a legerősebb napjukat zárták, 276 milliárd forint (750 millió dollár) friss tőke áramlott hozzájuk kedden...

MA 11:50

Az offshore szél nagy dobása: olcsóbb áram, vagy újabb viták?

🌀 A brit kormány történelmi mennyiségű új offshore szélerőmű-projektre adott ki szerződéseket, ezzel meghatározó lépést téve a tiszta energia irányába...

MA 11:34

Az olcsó Ubiquiti átjáró nagyító alatt: UXG‑Lite teszt

Az Ubiquiti UXG-Lite egy meglepően kompakt és energiatakarékos hálózati eszköz, amely ideális belépő az Ubiquiti ökoszisztémájába...

MA 11:17

A mesterséges intelligencia sötét oldala a vásárlásban: nő a trükközés

💸 A Google bejelentette új Univerzális Kereskedelmi Protokollját, amely lehetővé teszi, hogy a Gemini és más MI-alapú asszisztensek egyszerűsítsék az online vásárlást...

MA 11:01

A Galaxy S26 végre valódi áttörést hozhat

🚀 Újabb pletyka kering a hamarosan érkező Samsung Galaxy S26-ról, amely szerint végre érdemes lehet készülni a váltásra...

MA 10:57

Az amerikai kibocsátások ismét emelkednek – az MI a fő felelős?

🌎 Az Egyesült Államok üvegházhatású gázkibocsátása két év stabil csökkenés után idén újra növekedésnek indult, és jövőre várhatóan még magasabb lesz...

MA 10:52

A mesterséges intelligencia pontossága ugrásszerűen nő egy egyszerű trükkel

Az MI-modellek világában az utóbbi évek az egyre bonyolultabb kérdésfeltevési módszerek fejlesztésével teltek, hogy minél pontosabb válaszokat kapjunk...

MA 10:43

Az új memóriaválság alapjaiban rázza meg a PC-piacot

💡 Drágulás, szerényebb gépek: hosszú távú krízis a láthatáron Lényeges hangsúlyozni, hogy a memóriahiány, illetve az emiatt folyamatosan dráguló alkatrészek nyomán 2027 végéig tartó áremelkedésekre és visszafogottabb PC-felszereltségre számíthatunk...

MA 10:36

Az új Firefox 147: apró újítások, erősebb védelem

🚀 A Firefox 147-es verziója számos hasznos fejlesztéssel jelent meg. Az egyik legfontosabb újdonság, hogy mostantól támogatja a HTML dialogelemet, így a weboldalakon megjelenő felugró ablakok és párbeszédpanelek natívan jelenhetnek meg a böngészőben...

MA 10:29

Az ukrán hadseregre új, jótékonyságnak álcázott kibercsalás csap le

Október és december között az ukrán védelmi erők tagjait különleges, jótékonyságot színlelő kibertámadás érte, amelynek során a PluggyApe nevű, megtévesztő hátsóajtó-kártevőt próbálták telepíteni...

MA 10:24

Az MI-nek hála az energiaiparban is tarolnak az óriáscégek

A mesterséges intelligencia bevezetése óriási energiakeresletet indított el a tech világában, ezért a Big Tech-cégek most versenyt futnak az energiaszakemberekért...

MA 10:15

A rákbetegek 70 százaléka már öt évnél tovább él Amerikában

Az Egyesült Államokban drámai mértékben nőtt a daganatos betegek túlélési esélye: az American Cancer Society friss jelentése szerint a diagnózis után öt évvel még élők aránya elérte a 70 százalékot...