MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

Top
hétfő 16:50

Egyetemet végzett milliárdosok – ki mit végzett?

A közvéleményben gyakran keringenek olyan történetek, amelyek a felsőoktatásból kimaradó vállalkozókról szólnak...

MA 10:01

Az őszi Windows-frissítés tönkrevágja a játékélményt

Októberi Windows-frissítések miatt jelentősen visszaesett a játékok teljesítménye több mint egymillió, Windows 11 24H2-t és 25H2-t futtató PC-ken...

MA 09:57

Mit őriznek meg valójában az MI-modellek – és miért számít?

Például egyre többen gyanítják, hogy a chatrobot valójában ismeri-e egy teljes könyv szövegét...

MA 09:36

Az űr üressége csodát tesz: csillagok üzemanyag nélkül születnek

💫 A mindössze 12 millió fényévre található törpegalaxis, az NGC 6789 rejtélybe burkolózik...

MA 09:29

Az új gyógyszer áttörést hozhat a kemoterápia okozta idegkárosodás ellen

A kemoterápia komoly mellékhatása, az úgynevezett perifériás neuropátia (CIPN) a kezelt betegek akár felét is érinti...

MA 09:15

A Melissa hurrikán brutálisan megdöntött minden eddigi szélrekordot

Különösen igaz ez akkor, ha a trópusokon tomboló hurrikánokról van szó, ahol újabb és újabb széllökési csúcsokat mérnek...

MA 09:08

A Pentagon hulladékából lesznek a jövő stratégiai fémjei

🪨 A Pentagon közel 11 milliárd forinttal támogatja azt a kezdeményezést, amely az Egyesült Államokban ipari hulladékból állítana elő nélkülözhetetlen galliumot és szkandiumot...

MA 08:57

Az ösztrogén rejtett kapcsolója: így formálja az agy tanulását

🧠 Kiderült, hogyan formálja az ösztrogén és a dopamin együttműködése az agy tanulási képességeit, és hogyan befolyásolhat pszichiátriai tüneteket is...

MA 08:50

Az új membrán átírja a hidrogénleválasztás rekordját

A gázelválasztó membránokat tervező kutatók eddig főként olyan anyagokat alkottak, amelyek kifejezetten vonzzák a célgázt...

MA 08:43

A Salesforce új botránya: kibertámadás, bosszú és adatlopás

A ShinyHunters nevű zsaroló hackercsoport újabb jelentős betörést vállalt magára: saját állításuk szerint már három hónapja bejutottak a Gainsight rendszerébe, és több száz Salesforce-ügyfél adataihoz fértek hozzá...

MA 08:35

A Google hirdetései már az MI-módot is elárasztják

A Google újabb lépést tett a hirdetések világában: már a Gemini MI-módban is megjelentek a szponzorált tartalmak...

MA 08:29

Mégsem az e‑mailjeiddel tanítja az MI-t a Google

Az utóbbi napokban elterjedt az interneten, hogy a Gmail‑felhasználóknak ki kell kapcsolniuk az „okos funkciókat”, hogy adataikat ne használja fel a Google MI-betanításra...

MA 08:22

Az áruló belülről üt: botrány, hackerek, kirúgás a kiberóriásnál

A CrowdStrike nevű kiberbiztonsági vállalat egy gyanús alkalmazottat rúgott ki, miután kiderült, hogy céges információkat szivárogtatott egy hírhedt hackercsoportnak...

MA 08:15

Az arginin hozhat áttörést az Alzheimer-kór kezelésében?

🧠 Például az Alzheimer-kór a világ egyik vezető demenciakiváltója, az idegsejtek pusztulásával járó betegség, amelyre jelenleg nincs végleges gyógymód...

MA 08:01

Az FBI MI-vezérelt drónjai forradalmat hozhatnak a megfigyelésben

Az FBI újabb szintre lép a megfigyelésben: mesterséges intelligenciával felszerelt drónokat keres, amelyek képesek lehetnek arcfelismerésre, rendszámfelismerésre és fegyverfelismerésre is...

MA 07:57

Az olajpálma-ültetvényekből lesz Malajzia új Szilícium-völgye?

Malajzia hírhedt olajpálma-óriásai hosszú ideig a trópusi esőerdők irtásáért és az orángutánok pusztulásáért voltak felelősek, most azonban új szerepben tűnnek fel: egyre nagyobb területeiken ipari parkokat, adatközpontokat és napelemfarmokat létesítenek...

MA 07:53

A ’90-es évek visszatérnek az Analogue 3D-vel – megéri?

🗓 Felmerül a kérdés, hogy tényleg csak a nosztalgia miatt vágyunk vissza a Nintendo 64 korszakába, vagy az Analogue 3D új konzolja ennél többet is kínálhat...

MA 07:43

A MI-részvények hullámvasútja: mit vegyünk, mit kerüljünk?

🎲 Megemlíthető, hogy az utóbbi időben jelentősen megingott a tőzsde az MI-hez kötődő vállalatok részvényeinek árazása miatt...

MA 07:31

Az új Windows 11: jobb Xbox-élmény, könnyebb visszaállítás, simább használat

🎮 Tipikus eset, amikor egy Windows Insider-frissítés nemcsak új funkciókat, hanem új irányokat is hoz – ilyen a most megjelent Windows 11 Insider Preview Build 26220...