MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 14:49

A JWST leleplezi az Univerzum legrejtélyesebb csillaggyárát

💡 Az űr mélyéről lenyűgöző felvételt készített a James Webb űrteleszkóp a Tejútrendszer középpontjának óriási csillagkeletkezési felhőjéről...

MA 14:17

Az eltűnt zombiférgek nyomában: összeomló óceáni ökoszisztémák

Felmerül a kérdés, hová tűntek a mélytengeri zombiférgek: a tudósokat komolyan aggasztja, hogy ezek a kulcsfontosságú élőlények évek óta hiányoznak a kanadai csendes-óceáni partok közelében végzett kísérleteikből...

MA 13:49

Az olcsó AMD Radeon Pro megveri az Nvidia csúcsát

Az új tesztek szerint az AMD végre reális alternatívát kínál a mérnöki szoftverek terén, és az ünnepi meglepetés most inkább megrengeti az Nvidia piacvezető pozícióját...

MA 13:34

Az ünnepek tényleg feltöltenek, vagy csak lemerítenek?

🎉 Az ünnepi időszakhoz a legtöbben a pihenés képét társítják – lágy fények, meleg italok, békés semmittevés...

MA 13:19

Az orvoslás legbizarrabb esetei: 2025 legmegdöbbentőbb diagnózisai

Külön említést érdemel, hogy az orvosok világszerte időnként olyan rendkívüli esetekkel találkoznak, amelyek nemcsak a betegek, de még a legtapasztaltabb szakemberek számára is meglepetést okoznak...

MA 12:50

A vizes telefon és a rizs: mítosz vagy életmentő trükk?

Ha a mobiltelefon egy pocsolyába, medencébe vagy akár a mosdóba esik, azonnal megjelenik a klasszikus tanács: rakd rizsbe!..

MA 12:34

Az MI-korszakban az Amazon biztonsági főnöke elárulja, hogyan védd magad

Az MI már a munkahelyi mindennapok része, de ezzel együtt az adatvédelem és a kibervédelem területe is villámgyorsan alakul...

MA 12:18

Az új őrület: miért hódítanak a nyitott fülhallgatók?

Mit tudnak az open earbuds-ok? Az open earbuds, azaz nyitott fülhallgatók az utóbbi idők egyik legnépszerűbb trendjévé váltak...

MA 12:02

A világot letarolják az MI-zajvideók: szórakoztatnak vagy hülyítenek?

🎥 Fontos kérdés, hogy mennyire árasztották el a videómegosztó oldalakat az automatikusan gyártott, silány MI-tartalmak, az úgynevezett MI-zaj és brainrot-videók...

MA 11:49

Az MI által generált arcok már szinte megkülönböztethetetlenek a valósaktól

A mesterséges intelligencia elképesztő tempóban fejlődik, és egyre természetesebb, élethűbb arcokat generál...

MA 11:34

Az újságírókat védő elitcsapat a kormányzati kémprogramok ellen

Az elmúlt évtizedben újságírók és jogvédők százainak törték fel a telefonját kormányzati kémprogramokkal...

MA 11:17

Ezeket a Steam Deck-játékokat 2025-ben muszáj kipróbálnod

🎮 Meglepően jó évet zárt a Steam Deck – a Valve kézikonzolján idén is elképesztő mennyiségű indie és nagyobb játék jelent meg, amelyek közül sok tökéletesen futott, a játékélményt pedig a kanapéra, sőt a buszra is magaddal vihetted...

MA 11:01

Az LHC végre feltárja, hogyan született az anyag

Senki sem várta volna, hogy az univerzum legforróbb mesterséges tűzgolyói közepette az anyag csendben újjáépíti magát, miután a káosz elül...

MA 10:57

Az autizmus alternatív terápiái: bizonyíték nincs, kockázat annál inkább

A mindeddig legátfogóbb tudományos elemzés rámutatott, hogy az autizmus alternatív és kiegészítő kezelései mögött alig található megbízható bizonyíték...

MA 10:49

Az életközepi fogyás veszélyes üzenetet küld az agynak

Középkorú egereknél a fogyás nem várt mellékhatást hozott: míg az anyagcsere és a vércukorszint látványosan javult, az agyban gyulladásos folyamatok indultak el, különösen a hipotalamuszban, amely az étvágy és az energiaegyensúly szabályozásáért felelős...

MA 10:36

A rejtett grönlandi hő átírhatja a tengerszint-emelkedés forgatókönyveit

💧 Grönland jégtakarója alatt rejtett hőörvények kavarognak, amelyek gyökeresen megváltoztathatják a tengerszint-emelkedésre vonatkozó előrejelzéseket...

MA 10:29

Az ingyenes frissítés bugos meglepetéseket hoz a Stardew Valley Switch 2-re

A Stardew Valley továbbra is meglepi a rajongókat: akik már megvették Nintendo Switch 2-re a népszerű farmszimulátort, most egy teljesen ingyenes frissítőcsomagot tölthetnek le...

MA 10:15

A jövő biztonsága most indul: NordVPN és posztkvantum titkosítás

2024 augusztusában a Nemzeti Szabványügyi és Technológiai Intézet (NIST) előállt az első három kvantumrezisztens titkosítási szabvánnyal, elindítva ezzel a digitális védelem új korszakát...

MA 10:02

Az áttörés: megvan az első bizonyíték az univerzális kvantumspin-folyadékra

Fontos kérdés, hogy léteznek-e az anyagnak olyan különleges állapotai, amelyekben az elektronok spinjei nem rendeződnek szabályos mintába, még a legalacsonyabb hőmérsékleten sem...