MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?



Legfrissebb posztok

APPok, Amik Ingyenesek MA, 8/17
APP

MA 09:12

APPok, Amik Ingyenesek MA, 8/17

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     One Hit. (iPhone/iPad)A One Hit egy gyors tempójú, nagyon addiktív játék, ahol a célod a forgó...

Miért olyan fontos a NASA-nak az első holdi reaktor megépítése

MA 09:03

Miért olyan fontos a NASA-nak az első holdi reaktor megépítése

🚀 Az ötlet, hogy a NASA atomreaktort épít a Holdra, elsőre sci-fi őrületnek tűnhet – pedig egyre inkább kézzelfogható valósággá válik. Az amerikai űrügynökség célja, hogy a következő öt...

A pingvinek vándorlása, a világsiker egyszerű titka

MA 08:54

A pingvinek vándorlása, a világsiker egyszerű titka

A 2005-ben bemutatott A pingvinek vándorlása (March of the Penguins) igazi kulturális szenzációvá nőtte ki magát, új hullámot indítva a természetfilmezésben. A francia Luc Jacquet rendezésében készült és...

Megérkezett az új Pixel, beszakadt a Google hajtogatható mobil árfolyama

MA 08:40

Megérkezett az új Pixel, beszakadt a Google hajtogatható mobil árfolyama

A technológiai újításokra mindig éhes felhasználóknak most igazi csemegét kínál a Google: hatalmas, 220 000 forintos engedménnyel adják a Pixel 9 Pro Foldot. A hajtogatható, 256 GB-os, fekete...


MA 08:27

Egy fehérje lehet a kulcs az öregedés rejtélyéhez

A ReHMGB1 nevű fehérje új megvilágításba helyezi az öregedés folyamatát, mivel laboratóriumi kísérletek szerint képes a testünkben szétterjeszteni az öregedés jeleit. Nem elhanyagolható tényező, hogy az eredmények azt...

A hőségriadó bedönti Északot: rénszarvasok is menekülnek

MA 08:14

A hőségriadó bedönti Északot: rénszarvasok is menekülnek

🦙 Az idei júliusi hőhullám példátlan forróságot hozott Finnország, Norvégia és Svédország számára: két héten keresztül rendre 30°C felett volt a hőmérséklet, Finnországban ráadásul 22 napon át folyamatosan meghaladta...

Az otthoni influenzaoltás mostantól tű nélkül is elérhető

MA 08:01

Az otthoni influenzaoltás mostantól tű nélkül is elérhető

Idén már tényleg nehéz kibúvót találni az influenzaoltás alól: az AstraZeneca új vakcinája már otthon is beadható, ráadásul tű nélkül – orrspray formájában. Ez a készítmény ősszel kapott...

Szeptemberben jön az új iPhone 17, erre készülhetünk

MA 07:55

Szeptemberben jön az új iPhone 17, erre készülhetünk

Ahogy közeledik a szeptember, egyre élénkebb a találgatás az Apple következő nagy dobása, az iPhone 17 széria körül. A technológiai világ figyelme Cupertinóra szegeződik, ahol minden évben újabb...

Minnesota és Kanada kapcsolata a tűzvész füstjétől még nehezebbé vált

MA 07:41

Minnesota és Kanada kapcsolata a tűzvész füstjétől még nehezebbé vált

A forró nyarak helyett mostanában inkább kényszerpihenőt hoz a nyár Minnesota és Kanada határán: rekordmennyiségű friss füst árasztja el a térséget, ami komolyan veszélyezteti a lakosok egészségét és...