MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

csütörtök 18:24

Penrose szám: A bizonyíték Isten létére?

Sir Roger Penrose brit matematikus és elméleti fizikus, aki a fekete lyukak szingularitásának és az általános relativitáselmélet új matematikai alapjainak feltárásáért kapott Nobel-díjat, az 1970-es években sokkoló, a tudományos világot megosztó tézist közölt...

MA 09:01

Az Indus-civilizáció eltűnésének titka végre napvilágra kerülhet

Új kutatások szerint az ősi Indus-völgyi civilizációt több, rendkívül hosszan tartó aszály sújtotta, amelyek végül a társadalom hanyatlásához vezettek...

MA 08:57

Vége a Neato-felhőnek: lekapcsolják az okosporszívók agyát

A Neato Robotics bejelentette, hogy fokozatosan megszünteti felhőszolgáltatásait, miután a cég 2023-ban végleg bezárt...

MA 08:51

A legelső bibliai térkép tévedései ma is határokat rajzolnak

🗺 Pontosan ötszáz évvel ezelőtt, 1525-ben jelent meg az első olyan Biblia, amely tartalmazta a Szentföld térképét...

MA 08:42

Az Airbus A320-asainak tömeges visszahívása felforgathatja a légi közlekedést

Az Airbus pénteken bejelentette, hogy visszahívást rendel el mintegy 6 000 A320-as repülőgépénél, amely az egész világot érintő fennakadásokat okozhat – éppen az Egyesült Államok legforgalmasabb utazási hétvégéjén...

MA 08:36

Az amerikai tőzsde már ötödik napja száguld felfelé

📈 A hét utolsó, rövidebb kereskedési napján az amerikai tőzsdék magabiztos emelkedéssel zártak...

MA 08:15

A gyerekek kedvenc játékaiban mérgező fémek lapulnak

Brazíliában végzett átfogó vizsgálat sokkoló eredményekkel zárult: a gyerekek kedvenc műanyag játékai báriumtól és ólomtól hemzsegnek, ami azonnali, szigorúbb biztonsági intézkedéseket sürget...

MA 07:57

A figyelmetlen GitLab-fejlesztők titkai bárki kezébe kerülhettek

Több mint 17 000 jelszót, API-kulcsot és más bizalmas adatot találtak nyilvános GitLab-tárhelyeken, miután egy biztonsági mérnök letapogatta az összes, mintegy 5,6 millió elérhető repo­zitóriumot a szolgáltatásban...

MA 07:38

A dermesztő tél: így éld túl a maratonfelkészülést fagypont alatt

Nagy ötletnek tűnhet belevágni egy tavaszi maratonba – egészen addig, amíg rá nem ébredsz, hogy a leghosszabb edzéseidet a január–február mélypontján kell majd lenyomnod...

MA 07:29

Az igazi vezető nem a népszerűségre hajt

👑 Rengeteg főnök vágyik arra, hogy kedveljék a beosztottai, pedig ez nem teszi őket jobb vezetővé...

MA 07:23

A varázslat nyomában: Frieren Blu-ray-kiadások, amit tudni kell

🧙 Kezdetben a Frieren: Az utazás vége után (Frieren: Beyond Journey’s End) egyből magával ragadta a nézőket...

MA 07:15

Az őrült hullámvasúton száguld a Circle részvénye

🍞 A Circle Internet Group részvénye pénteken 10,9%-kal ugrott meg, miután a kriptopiac két hét folyamatos lejtmenet után végre magára talált...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 11/29

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Epica 2 Pro – monster camera (iPhone/iPad)A második generációs kameraalkalmazás új jeleneteket, pózokat és speciális effekteket kínál...

MA 07:10

Az óceánok szeméthalmaza: kellene a globális fellépés, mégis esélytelen?

Az emberiség tengerei és óceánjai előtt álló egyik legsúlyosabb környezeti probléma a tengeri hulladék: globális összefogás és egységes megfigyelőrendszer nélkül azonban szinte reménytelen a valódi előrelépés...

MA 07:01

Az eltűnt jelszógomb: megint bakizik a Windows 11 frissítése

A Microsoft figyelmeztetett, hogy a 2024 augusztusa óta kiadott Windows 11-frissítések hatására a jelszóval történő bejelentkezés ikonja eltűnhet a zárolási képernyőről, még akkor is, ha maga a funkció továbbra is elérhető marad...

MA 06:58

Az ünnepek előtt boltbezárások és leépítések a Krogernél

Az elmúlt években a vásárlók egyre inkább az online élelmiszerrendelést választják ahelyett, hogy személyesen járnának boltba...

MA 06:50

Az ausztrál repülőgépes Wi‑Fi-hackert végre lecsukták

🖨 Egy 44 éves ausztrál férfit hét év négy hónap börtönre ítéltek, miután bizonyítékot találtak arra, hogy repülőgépeken és ausztráliai reptereken működtetett hamis Wi‑Fi-hálózatokat, hogy utazók adatait ellopja...

MA 06:42

Az Oroszlánváros, Szingapúr uralja a globális tehetségversenyt

2025-ben történelmi átrendeződés zajlott a globális tehetségranglistán: Szingapúr először vette át az első helyet Svájctól, amely 2013 óta uralta a rangsort...

MA 06:36

Az újabb óriási adatlopás megrengeti a brit távközlést

🚧 A brit Brsk internetszolgáltató több mint 230 ezer ügyfél adatainak ellopását vizsgálja, miután egy kiberbűnözői fórumon ismeretlenek hirdetést tettek közzé a megszerzett adatokról...