MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?



Legfrissebb posztok

Tényleg gyengébb lett a GPT-5, mint a GPT-4o, újra fellángolt a vita

MA 23:52

Tényleg gyengébb lett a GPT-5, mint a GPT-4o, újra fellángolt a vita

💡 A GPT-5 bevezetése óta fellángolt a vita az OpenAI-nál, sok felhasználó szerint az új modell steril, kevesebb benne a kreativitás, sőt, több a pontatlan, ártalmas információ is. A...

A Cisco lehetne az MI nagy nyertese, ha engednék

MA 23:27

A Cisco lehetne az MI nagy nyertese, ha engednék

A Cisco Systems legutóbbi negyedéves eredményei ismét bizonyították, hogy a cég helye megkérdőjelezhetetlen a mesterséges intelligencia (MI) piacán. A július 26-án zárult időszakban a bevétel éves összehasonlításban 8%-kal...

Az antarktiszi sziget rejtélyes sötét lyukai a felhőkben

MA 23:01

Az antarktiszi sziget rejtélyes sötét lyukai a felhőkben

2016-ban különös jelenséget örökített meg a Landsat 8 műhold: tíz sötét örvény jelent meg a felhők között a lakatlan Heard-sziget felett, az Indiai-óceánban. Ez az ausztrál fennhatóság alá...

Az oroszok már a bírósági aktákban is turkálnak

MA 22:51

Az oroszok már a bírósági aktákban is turkálnak

Az amerikai szövetségi bíróságok ügykezelő adatbázisait hekkelték meg; a támadás mögött orosz kibertámadókat sejtenek. A támadásra már júliusban fény derült, de hivatalos részletek továbbra sincsenek a behatolás mértékéről,...

Sokkoló vírustrükk: így csomagolják be tökéletesen a saját genetikai kódjukat!

MA 22:01

Sokkoló vírustrükk: így csomagolják be tökéletesen a saját genetikai kódjukat!

A vírusok lenyűgöző pontossággal képesek bepakolni saját RNS-üket apró fehérjeburkokba, úgynevezett kapszidokba – ráadásul egy átlagos vírus több mint 99%-os hatékonysággal dolgozik. A San Diego Állami Egyetem (San...


MA 21:54

Fedezd fel a denevérek világát, hallgasd meg őket te is

Amikor leszáll az este, a természet új arca tárul elénk: a denevérek nesztelen suhanása, amit szabad füllel szinte lehetetlen érzékelni. Aki szeretné megtapasztalni éjszakai életüket, annak a 2025-ös...

Az új Google MI segít olcsóbb repülőjegyet találni

MA 21:26

Az új Google MI segít olcsóbb repülőjegyet találni

A Google beveti a mesterséges intelligenciát a repülőjegy-keresésben: elindult a Repülőjegy-ajánlatok (Flight Deals) nevű eszköz, amely már béta verzióban elérhető. Elsőként az Egyesült Államokban, Kanadában és Indiában indul...

Az MI és a botrányos Grok: Levetkőztették Taylor Swiftet

MA 21:01

Az MI és a botrányos Grok: Levetkőztették Taylor Swiftet

👀 Elon Musk cégének, az xAI-nak új MI-alkalmazása, a Grok Imagine komoly vitákat váltott ki. A program kép- és videógenerálója, különösen a „Spicy”, vagyis felnőtt tartalmakat ösztönző módja váltott...

Mikor az MI megőrül, furcsán kezd viselkedni a csevegőrobot

MA 20:27

Mikor az MI megőrül, furcsán kezd viselkedni a csevegőrobot

🙃 Míg sokan tisztában vannak azzal, hogy a csevegőrobotok félrevezető vagy hibás válaszokat adhatnak, egy friss jelenségre kevesebben figyelnek fel: egyre gyakrabban fordul elő az úgynevezett MI-pszichózis, amikor valaki...