MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

Top
hétfő 16:50

Egyetemet végzett milliárdosok – ki mit végzett?

A közvéleményben gyakran keringenek olyan történetek, amelyek a felsőoktatásból kimaradó vállalkozókról szólnak...

MA 14:34

Az államok kvantumfegyverkezése már 2029-ben indulhat?

A Palo Alto Networks vezérigazgatója, Nikesh Arora szerint ellenséges országok akár már 2029-ben, vagy még korábban is kvantumszámítógépekhez juthatnak...

MA 14:17

Az Endgame végre mindenkié a Black Ops 7-ben

🏆 november 21-től minden játékos számára elérhetővé válik az Endgame, a Call of Duty: Black Ops 7 vadonatúj, nyílt világú kooperatív játékmódja...

MA 14:01

Az Nvidia uralja a piacot: brutális bevételnövekedés, szárnyaló részvények

📈 Az Nvidia részvényei csütörtökön több mint 5%-kal ugrottak meg a tőzsdenyitás előtti kereskedésben, miután a cég harmadik negyedéves eredményei jelentősen felülmúlták az elemzői várakozásokat...

MA 13:33

Az első csillagok nyomában: szenzációs JWST-felfedezés?

💫 A James Webb Űrteleszkóp (JWST) minden eddiginél közelebb vihetett bennünket a világegyetem legősibb csillagainak felfedezéséhez...

MA 13:17

Az OpenAI új MI-je órákig önállóan programoz – ember nem kell

Az OpenAI kiadta a GPT-5.1 Codex-Max verzióját, amely lényegesen jobb teljesítményt nyújt a programozási feladatokban...

MA 13:02

A Nokia felszáll az MI‑aranyláz expresszére

A Nokia nagy átalakulásba kezd, és önálló vállalatba szervezi ki az MI-üzletágát, kevesebb mint egy hónappal azután, hogy az Nvidia 370 milliárd forinttal (1 milliárd dollár) szállt be a cégbe a 6G fejlesztése érdekében...

MA 12:50

Az EU bekeményít: válságállóvá válik a Microsoft-felhő

🛠 Az európai adatbiztonság szintet lép: a Microsoft, az SAP tulajdonában lévő Delos Cloud és a francia Bleu összefogtak, hogy még válsághelyzetekben is zavartalan maradjon az EU-ban a felhőszolgáltatás...

MA 12:34

Az immunrendszer ellentámad: felturbózott T-sejtek vadásznak a rákra

Annak vizsgálata, hogyan lehet új életet lehelni azokba a T-sejtekbe a daganatos megbetegedések elleni harcban, amelyek feladata a rákos sejtek elpusztítása...

MA 11:49

A nagy áttörés: sikerült a távoli fotonok kvantumteleportációja

A Stuttgarti Egyetemen német kutatók eddig lehetetlennek hitt lépést tettek a jövő kvantuminternete felé: két különböző, fizikailag elválasztott fényforrás – úgynevezett kvantumpontok – fotonjai között sikerült kvantumteleportációt megvalósítani...

MA 11:34

Az Északi-sark aranya: kié lesznek a kritikus ásványkincsek?

🔮 Az Északi-sarkvidék stratégiai jelentősége mára meghatározóvá vált, ahogy a világ vezető országai igyekeznek biztosítani nyersanyagellátásukat...

MA 11:17

Az új TikTok-trükk: eltűnik az MI-szemét a hírfolyamból?

💡 A TikTok újításával a felhasználók mostantól szabályozhatják, mennyi MI által generált tartalom bukkanjon fel a hírfolyamban...

MA 11:01

A Target MI-chatje már intézi a vásárlást – elég beszélgetni

A Target mostantól lehetőséget ad arra, hogy a karácsonyi roham közepén akár beszélgetés közben is lebonyolíthasd a vásárlást: a ChatGPT-n keresztül már nemcsak ajánlásokat kérhetsz, hanem konkrétan be is pakolhatsz termékeket a kosárba, majd fizethetsz, mindezt az alkalmazás elhagyása nélkül...

MA 10:58

Az USA a kanyaró visszatérésének küszöbén?

Az Egyesült Államokban 2025-ben 45 kanyarójárványt jelentettek, amelyek miatt az ország néhány hónapon belül elveszítheti kanyarómentes besorolását...

MA 10:45

Az MI már újraírja a tudományos kutatás szabályait?

🧠 Egy lényeges szempont, hogy a Google új fejlesztése, a Scholar Labs nevű MI-alapú keresőeszköz mostantól nem csupán kulcsszavak alapján keres tanulmányokat, hanem a felhasználók összetettebb kutatási kérdéseire próbál releváns tudományos eredményeket ajánlani...

MA 10:36

A mesterséges intelligencia mostantól interaktívvá teszi a Google-keresést

🔍 A Google forradalmasíthatja az internetet azzal, hogy a keresője mostantól MI-alapú, interaktív felületeken keresztül válaszol a kérdésekre...

MA 10:29

Az arany nanocső titka: fényt gyújt az anyag sötétjében

Korábban láthatatlan fényállapotokat sikerült most először láthatóvá és szabályozhatóvá tenni: áttörés született a fotonika és a kvantumtechnológia területén, amely új távlatokat nyit a szupergyors fotonika, a chipbe épített kvantumkommunikáció és a kétdimenziós (2D) anyagok eddig elérhetetlen kvantumállapotainak vizsgálata előtt...

MA 10:16

Itt vannak az év appjai: érkeznek a 2025-ös App Store-díjak

Az Apple idén is összegyűjtötte a legkiemelkedőbb alkalmazásokat és játékokat, amelyek maradandó nyomot hagytak a felhasználók mindennapjain...

MA 10:08

Az Apple N1 chip leiskolázza a régi Broadcom Wi‑Fi-t

Az új iPhone 17 széria egyik legnagyobb újítása az Apple saját fejlesztésű N1 vezeték nélküli chipje, amely leváltotta a korábbi Broadcom-megoldásokat...