MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

vasárnap 20:49

A FaZe Clan tényleg a szétesés küszöbén áll?

A FaZe Clan jövője komoly kérdéseket vet fel, miután hat népszerű influencer – Adapt, Jason, Ronaldo, Lacy, Rage és Silky – bejelentette távozását a csapatból...

vasárnap 20:33

A 10 kihagyhatatlan üzleti könyv, amit idén el kell olvasnod

A sikeres vezetők nemcsak a felszínt kapargatják, hanem szívesen merülnek el mélyebb gondolatokban is: ezek a könyvek nemcsak elméletekről, hanem a mindennapi üzleti élet valós kihívásairól szólnak...

vasárnap 20:17

A kedvező árú Tecmojo 12U hálózati rack falra is szerelhető

A szerverek számára nélkülözhetetlen az állványos elhelyezés, hiszen míg egy asztali PC vagy NAS önmagában is megállja a helyét, igazi adatközponti érzést csak egy jó rack adhat...

vasárnap 20:01

Az agyi miniorganoidok forradalmasítják a pszichiátriát

Egyre több kutatás mutatja, hogy a laborban növesztett miniatűr agyak most először engednek igazán részletes bepillantást abba, hogyan torzul az idegrendszer aktivitása skizofrénia és bipoláris zavar esetén...

vasárnap 19:33

Az olvadó gleccserek végórái: drámai veszteség évtizedeken belül

Az elkövetkező évtizedekben évente akár 4 000 gleccser is eltűnhet világszerte, és a század végére már alig maradhat belőlük...

vasárnap 19:19

Az idei filmek üzenete: egyék meg a gazdagokat!

2025-ben a mozik folytatták régi hagyományukat: a leggazdagabbak újra az év nagy ellenségeivé váltak...

vasárnap 19:02

A 2026-os év három legizgalmasabb kriptója: ezekre figyelj

💸 A kriptopénzpiac erőteljes hullámzásait láttuk 2025-ben, hiszen a vezető kriptovaluták értéke 10–50 százalékkal esett vissza...

vasárnap 18:49

Az új Retroid Pocket 6 már a PS2-t is viszi

A Retroid Pocket 6 végre valóság lett, és hamarosan megérkezik az első előrendelők kezébe...

vasárnap 18:34

Az év sokkoló egészségügyi sztorijai: kanyaró, MI-vezérelt vírusok, botrányok

Érdemes megvizsgálni, milyen jelentős fordulatokat hozott 2025 az egészségügy terén: áttörő orvosi kezelések, alapvető biológiai rejtélyek és egészségpolitikai viharok formálták a világot, miközben az MI és a tudomány új korszakot nyitott...

vasárnap 18:18

A Realme GT8 Pro cserélhető kamerával borzolja a kedélyeket

Megemlíthető továbbá, hogy az okostelefonpiacon évtizedek óta ritkán találni igazán meglepő újdonságot, ám a Realme GT8 Pro váratlanul új színt vitt a megszokott kínálatba...

vasárnap 18:01

Az univerzum sorsa veszélyben: gyengül a sötét energia?

Az utóbbi időben egyre nagyobb vitát váltott ki, hogy a sötét energia, az Univerzum gyorsuló tágulásáért felelős titokzatos erő talán mégsem viselkedik úgy, ahogy korábban gondoltuk...

vasárnap 17:50

Az ötven felettiek költekezése turbózza a gazdaságot

A befektetési világ egyre inkább az 50 év felettiekre, az úgynevezett Silver Spenders-re figyel, akik erősödő anyagi helyzetükkel és növekvő befolyásukkal komoly gazdasági lendületet adnak a brit piacnak...

vasárnap 17:35

Az indiai startuplufi kipukkan? A befektetők már válogatnak

📈 India startup-ökoszisztémája 2025-ben közel 4 000 milliárd forintnyi (11 milliárd dollárnyi) tőkét vonzott, de a befektetők jóval kevesebb csekket írtak alá, mint korábban, és mind válogatósabbá váltak...

vasárnap 17:17

Az érzelmileg intelligens párok valódi titkai

Érdemes megvizsgálni, hogy mit csinálnak másként azok a párok, akik magas érzelmi intelligenciával kezelik a konfliktusokat...

vasárnap 17:03

Az Apple Watch: a hatékonyság titkos aduásza

⏱ Felmerül a kérdés: tényleg csak az egészséged figyelésére jó az Apple Watch, vagy a munkahelyi termelékenységben is segíthet?..

vasárnap 16:50

Az MI mindent elárasztott 2025-ben – de hol a forradalom?

Érdemes megérteni, hogy 2025-re az MI már a mindennapok része lett, de az igazi világrengető áttörés elmaradt...

vasárnap 16:33

Az iraki agyagpajzs a porviharok ellen

🌀 Irak déli sivatagaiban egyre gyakrabban támadnak heves por- és homokviharok, amelyeket az éghajlatváltozás okozta aszály, a magasabb hőmérséklet és az erdőirtás felerősítenek...

vasárnap 16:18

A PlayStation idei éve: meglepetések helyett tökéletes folytatás?

🎮 A PlayStation semmit sem bíz a véletlenre a mostani konzolgenerációban. A 2020 óta piacon lévő PlayStation 5 folyamatosan bővült exkluzív játékokkal – a Returnaltől a God of War Ragnarökig, vagy éppen a The Last of Us folytatásaiig...

vasárnap 16:02

A világegyetem csodája: 400 gyűrű fedi fel a csillagszületés titkát

A téli égbolton, ha délkelet felé nézel, és a ragyogó csillagokat keresed, érdemes kicsit feljebb tekinteni a visszafogottabb fényű Perseus csillagkép felé...