MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 17:18

Az iRobot Roomba megmenekült: minden marad a régiben

🚽 A Roomba porszívók tulajdonosai aggódva figyelték a fejleményeket, miután a gyártó iRobot csődeljárása során a kínai Picea kezébe került...

MA 17:02

Az ukrán hacker bukása: súlyos csapás a Nefilim zsarolóbandára

🔒 Egy 35 éves ukrán férfi, Artem Alekszandrovics Sztrizsak beismerte, hogy részt vett a Nefilim nevű zsarolóvírus-banda támadásaiban, amelyek főként nagy bevételű amerikai, norvég, francia, svájci, német és holland vállalatokat céloztak...

MA 16:49

Az Xbox válságban? Közeleg a forradalmi átalakulás

A Microsoftnál az utóbbi időben tömeges elbocsátások és stúdióbezárások rázták meg az Xbox-részleget, többen már le is írták a konzolt...

MA 16:34

Az új RAM-átverések tarolnak – így védekezz ellenük

Érdekes jelenség, hogy a dráguló rendszermemóriák miatt egyre gyakoribbak a RAM körüli csalások...

MA 16:17

Az NHS egyik kulcsbeszállítóját súlyos zsarolóvírus-támadás érte

💉 Anglia Nemzeti Egészségügyi Szolgálatának (NHS) egyik kulcsfontosságú technológiai beszállítója, a DXS International december közepén zsarolóvírus-támadást szenvedett el...

MA 16:03

A tengeri rózsa ősi titka: az állati sejttípusok eredete

🐬 Minden állat testében azonos a genetikai állomány, mégis rendkívül változatos sejttípusok és szövetek alakulnak ki...

MA 15:34

Az új ChatGPT-arcok: vállalati robot vagy zabolátlan haver?

🤖 A karácsony előtti fejlesztéshullám a ChatGPT-nél idén is folytatódik. Az OpenAI bevezette a vadonatúj személyiségbeállításokat, amelyeket a Characteristics menüpont alatt érhetsz el...

MA 15:18

A kóbor macskák titkai hozhatják vissza a walesi vadmacskákat

🐱 A Walesben élő elvadult és kóbor macskák rejtett életét vizsgáló új kutatás izgalmas lehetőségeket villant fel a kihalt európai vadmacska visszatelepítésére...

MA 15:01

Az arcod lesz az új SIM-ed Dél-Koreában

Dél-Korea újabb frontot nyit az adatlopási hullám ellen: hamarosan kötelező lesz arcfelismeréssel igazolnod magad, ha mobil-előfizetést vásárolsz...

MA 14:49

A régi ASUS Live Update-hiba? Pánikra semmi ok!

🙂 Az elmúlt napokban ismét előtérbe került az ASUS Live Update sérülékenysége, amely CVE-2025-59374 kódon szerepel az ismert sebezhetőségek között...

MA 14:35

Az emlősök rákellenes trükkje: a szüneteltethető terhesség?

Néhány emlős képes leállítani a terhességét, amíg a körülmények nem lesznek ideálisak...

MA 14:17

Az elektromos Polestar megmenekült: milliárdos mentőöv húzta ki a bajból

🚗 A svéd Polestar, az elektromos autókat gyártó márka 110 milliárd forint (300 millió USD) tőkebevonást szerzett, hogy erősítse pénzügyi helyzetét és stabilabbá tegye működését...

MA 14:02

Az arany és az ezüst kilő: válságpánik söpör végig?

💰 Újabb történelmi csúcsra szöktek az arany és az ezüst árfolyamai, miután a rövidített kereskedési hét elején ismét a biztonságra vágyó befektetők kerestek menedéket...

MA 13:49

Az újabb WatchGuard-tűzfalhiba 115 ezer eszközt sodor veszélybe

⚠ Több mint 115 000 WatchGuard Firebox tűzfal maradt védtelen egy kritikus, távoli kódfuttatási (RCE) hibával szemben, amelyet már aktívan kihasználnak a támadók...

MA 13:18

Az Északi-tenger alá temetik a szén-dioxidot – ez lehet a klímaválság új fegyvere?

🌊 A dán partoktól 170 kilométerre, a zord, szeles Északi-tengeren hamarosan új korszak kezdődik: most nem kőolajért fúrnak, hanem az európai erőművekből származó szén-dioxidot (CO2) pumpálnak a tengerfenék alá...

MA 13:02

Az Uber és a Lyft robotaxikat vet be Londonban

A kínai Baidu együttműködésével 2026-tól már London utcáin is megjelennek az önvezető taxik: az Uber és a Lyft is bejelentették, hogy platformjaikon keresztül indítják a Baidu Apollo Go autóit...

MA 12:50

Az Apple és a Google meghátrál Japánban

🇯🇵 Jó példa erre, hogy a világ két legnagyobb technológiai cége, az Apple és a Google most először engedélyezte a mobilalkalmazások terjesztését alternatív alkalmazásboltokon és más fizetési szolgáltatókon keresztül Japánban...

MA 12:33

A valaha készült legélethűbb fekete lyuk-szimuláció megszületett

Évtizedeken át tartó fejlesztések után a számítógépes asztrofizika áttörést ért el: először sikerült olyan részletességű és pontosságú modellt létrehozni, amely valósághűen mutatja be, hogyan nyelnek el anyagot a fekete lyukak, és miként bocsátanak ki intenzív sugárzást...

MA 12:18

Az OpenWrt rajongói ujjonghatnak: a NordVPN teljesen testre szabható

😃 A NordVPN legújabb lépése a nyílt forráskódú közösségben egy fej nélküli, Linux-alapú csomag, amelyet OpenWrt-routerekhez kínálnak...