MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

MA 14:01

Az ukrán hekkerekre vadászik a lengyel rendőrség

A lengyel rendőrség három ukrán férfit tartóztatott le, akik fejlett hekkelési eszközökkel próbálhattak beavatkozni a helyi informatikai rendszerekbe...

MA 13:49

A döbbenetes ok, miért alig élnek óriásállatok a Földön

🤔 Bár az ember számára a só mindennapi fűszer, a vadon élő növényevők számára valódi luxuscikk...

MA 13:33

Az Ancestry lakatot tesz DNS-adatbázisára a nyomozók előtt

Több millió ember küldte már el a nyálmintáját online családfakutató oldalakra, hogy többet tudjon meg felmenőiről vagy hogy elveszett rokonokat találjon...

MA 13:17

Az új Letterboxd Videotéka megnyílt: itt az első kínálat

Hamarosan elindul a Letterboxd saját digitális videotékája, amelyben négy különleges film nyitja a digitális kölcsönzést...

MA 13:02

Az új MI a Chrome-ban: veszélyes játék, csak MI óvhat meg

Hihetetlen, de mégis igaz, hogy a Google szerint csak az MI képes kezelni a Chrome böngészőbe épített új MI-funkciók okozta biztonsági kockázatokat...

MA 12:51

A szilárd és a folyadék rejtett határát leplezték le az olvadékfémek

⚡ Apró fémcseppek viselkedése alaposan felkavarta a tudósok elképzeléseit az anyagok halmazállapotáról: bizonyossá vált, hogy a folyadékban sem minden atom van mozgásban, néhány meglepő módon fix helyen marad, függetlenül a hőmérséklettől...

MA 12:35

A Pokémon GO-ba végre jön a távoli csere

Hosszú évek várakozása után végre lehetővé válik a távoli csere a Pokémon GO-ban...

MA 12:17

A betlehemi csillag valójában egy bolygó volt?

⭐ A háromkirályok története mindig is misztikummal övezte a karácsonyt: vajon a Betlehemi csillag tényleg létezett az égen, vagy csupán bibliai szimbólum volt?..

MA 12:01

Jön az újabb hőrekord: 2025 a második legforróbb év?

2025 várhatóan minden idők második vagy harmadik legmelegebb éve lesz, közvetlenül 2023 mögött...

MA 11:50

Az otthoni miniszuperszámítógép: lesz a régi laptopból erőmű?

💻 Régi Framework alaplapokból is lehet újat alkotni: a FrameCluster egy Kickstarter-projekt, amelynek célja, hogy a használaton kívüli laptopalaplapokat átlátható, moduláris rack rendszerbe rendezze...

MA 11:33

Az online tartalomkészítők háborút hirdetnek az MI-botok ellen

Az online kiadók egymás után hirdetnek hadat a MI-alapú adatgyűjtő botok ellen, hogy megvédjék tartalmaikat az engedély nélküli felhasználástól – miközben a szervereiket is tehermentesítsék a nem emberi forgalomtól...

MA 11:19

A Fairphone új fejhallgatója zöld, menő és drága – imádnivaló joystickkal

Érdemes megvizsgálni, hogy mennyire sikerült a Fairphone-nak új szintre emelnie ökofejlesztéseit a Fairbuds XL (2025) fejhallgatóval, amely nemcsak környezettudatos anyaghasználatával tűnik ki, hanem egy olyan funkcióval is, amelyet a nagy nevek – mint a Sony vagy a Bose – is átvehetnének...

MA 11:02

A 50 milliós Pokémon-kártya, amiben senki sem hitt

Egy szinte értéktelennek tartott Pokémon-kártya, egy első kiadású Kabuto-kártya most több mint 18 millió forintért (51 100 USD, kb...

MA 10:57

Az MI-éhes adatközpontok újraélesztik az amerikai atomenergiát

Meta és Google óriási tempóban növelik adatközpontjaik energiaigényét – ráadásul mindezt egyetlen energiacégnél, a NextEra Energy-nél összpontosítják...

MA 10:50

Az újabb földrengés letarolta Japánt: cunamiriadó, pánik a partokon

🌈 Erős, 7,6-os erősségű földrengés rázta meg Japán keleti partvidékét, ami miatt a hatóságok akár 3 méter magas cunamit is várnak egyes területeken...

MA 10:44

A veszély valós: kártékony VS Code-bővítmények lopják az adataidat

Két veszélyes VSCode-bővítményt találtak a Microsoft Visual Studio Code piacterén, amelyek adatlopó programmal fertőzhetik meg a fejlesztők számítógépeit...

MA 10:37

A Spotifyt már elárasztják az MI-gyártotta kamubandák

🎧 Az MI-alapú hamis zenekar, a King Lizard Wizard heteken át észrevétlenül jelen volt a Spotify-on, miközben eredeti inspirációja, az ausztrál King Gizzard & The Lizard Wizard már eltávolította zenéit a platformról...

MA 10:30

A valódi Nanotyrannus: végre pont került a dinoszaurusz-rejtély végére

🐅 Évtizedekig tartó vita végére került pont, amikor egyedülálló csontleletből végre kiderült: a Nanotyrannus valóban önálló dinoszauruszfaj volt, nem csupán egy ifjú Tyrannosaurus rex...