MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

kedd 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

MA 20:17

Az új főbűnös a rejtélyes halálos kórokban: a hiányzó fehérje

Egy új felfedezés szerint egy eddig rejtve maradt fehérje, az RPA, kulcsfontosságú lehet számos, akár halálos betegség kialakulásában...

MA 20:02

Az árzuhanás megkezdődött az ingatlanpiacon – nem mindenkinek jó hír

Több mint két év után először országos szinten csökkennek a házárak az Egyesült Államokban...

MA 19:49

Az alakváltó molekulák forradalma már itt van

🚀 A Jyväskyläi Egyetem kutatói áttörő módszert fejlesztettek, amellyel a szintetikus molekulák egyszerűen programozhatók: így most már képesek spirális szerkezetekbe rendeződni, sőt akár formát is váltani...

MA 19:34

Újabb biztonsági rés: 700 Gogs-szervert törtek fel világszerte

Egy foltozatlan, eddig nem nyilvánosságra hozott biztonsági rés a Gogsban, a népszerű, önállóan üzemeltethető Git-szolgáltatásban lehetővé tette, hogy támadók távoli kódfuttatást hajtsanak végre, és így több száz szervert kompromittáljanak világszerte...

MA 19:17

Az Xsight Labs parányi chipje tarol a Starlinknél

Az Xsight Labs, amely mögött olyan nagyágyúk állnak, mint az AMD, az Intel Capital és a Marvell, most komoly győzelmet aratott: az ő X2 kapcsolóchipjük került be a SpaceX új, Starlink V3 műholdjaiba...

MA 19:03

Visszatér-e a Twitter? Bluebird szemben Elon Muskkal, a „márkagyilkos megváltóval”

Fontos kérdés, hogy vajon feltámasztható-e az egykor legendás Twitter, amelyet Elon Musk minden eddiginél radikálisabban változtatott meg, és most már X néven fut...

MA 18:49

A Disney-varázs elszabadult: MI-vel bárki sztárt gyárthat

🎞 A Disney 360 milliárd forintot (1 milliárd dollárt) fektet az OpenAI-ba, hogy legendás karakterei életre kelhessenek a legújabb MI-alkalmazás, a Sora segítségével...

MA 18:34

Az MI nagy dobása: Disney-hősök kelnek életre Sora-videókban

📺 A Disney óriási, 370 milliárd forintos (1 milliárd dollár) befektetést jelentett be az OpenAI-ba, amellyel példátlan együttműködést indít el a generatív MI világában...

MA 18:17

A Windowsban végre vége a fehér villanásoknak

A Microsoft végre orvosolta azt a bosszantó hibát, amely miatt a Windows 11 Sötét módban futó Fájlkezelő használatakor hirtelen vakító fehér villanások jelentek meg...

MA 18:02

A tél kapuja: mit hoz a téli napforduló?

Decemberben a legrövidebbek a nappalok, de a tél kezdete nem is olyan egyértelmű, mint hinnéd...

MA 17:50

A fogyókúra új csodaszere: dán gyógyszergyár szorongatja a nagyokat

Ez a jelenség jól illusztrálható azzal, hogy a dán Zealand Pharma merész, 2030-ig tartó stratégiát hirdetett, amellyel új lendületet hozna a fogyást segítő gyógyszerek piacára...

MA 17:33

Az idei nyolcadik Chrome-botrány: újabb kritikus hibát foltozott a Google

⚠ A Google újabb, a gyakorlatban is kihasznált, úgynevezett nulladik napi sebezhetőséget javított a Chrome böngészőben – ez már a nyolcadik ilyen javítás 2025-ben...

MA 17:18

Az aranyos társasjáték, amely brutális agytornát kíván

Érdekes felvetés, hogy egy tündéri, állatkákkal illusztrált társasjáték valójában igazi, többrétegű stratégiai kihívást rejthet...

MA 17:02

Az új Pixel Camera-frissítés totális káoszt okoz?

📷 A Pixel telefonokat sokan főleg kiváló fotózási képességeik miatt választják, és a gyári Pixel Camera alkalmazás most a 10...

MA 16:50

A szmogtengerben fuldoklik Hanoi

Egy hete vastag, mérgező szmog borítja Hanoi utcáit, amely elhomályosítja a város látképét, és nehézlégzést okoz a kilencmilliós lakosság körében...

MA 16:33

A 4000 milliárdos gigadeal: az IBM viszi a Confluentet

💰 A technológiai világ ismét felforrósodott: az IBM bejelentette, hogy 11 milliárd dollárért (kb...

MA 16:17

A rák titkos trükkje, amitől mindig visszatér

A rák elleni gyógyszerekre kialakuló rezisztencia továbbra is az egyik legnagyobb kihívás az onkológiában...

MA 16:02

Az Eli Lilly csodaszere: olvadnak a kilók, múlik a térdfájás

Érdemes megvizsgálni, milyen áttörést hozott az Eli Lilly legújabb elhízás elleni gyógyszere, a retatrutide, amely a legfrissebb, késői fázisú vizsgálatok alapján minden eddiginél nagyobb testsúlycsökkenést eredményez...