MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

szombat 18:40

Leghaszontalanabb amerikai szlengek és idiómák

“Wallet biopsy” Szó szerint: pénztárca-biopszia 💸, amikor egy orvos vagy egészségügyi szolgáltató előbb ellenőrzi 🔬, mennyi pénzed / biztosításod van, és aztán dönti el, milyen vizsgálatot kapsz...

csütörtök 18:24

Penrose szám: A bizonyíték Isten létére?

Sir Roger Penrose brit matematikus és elméleti fizikus, aki a fekete lyukak szingularitásának és az általános relativitáselmélet új matematikai alapjainak feltárásáért kapott Nobel-díjat, az 1970-es években sokkoló, a tudományos világot megosztó tézist közölt...

MA 11:49

Az Asahinál példátlan adatlopásra derült fény

🔒 Egy szeptemberi kibertámadás miatt az Asahi Group Holdings, Japán legnagyobb sörgyártója, közel 1,9 millió ember adatait veszítette el...

MA 11:33

A szoftverhiba földre parancsolta az Airbus gépeit

Több mint 6000 Airbus A320-as gép földre kényszerült világszerte, miután a gyártó felismerte, hogy az intenzív naptevékenység miatt szoftverhiba fenyegeti a repülésbiztonságot...

MA 11:18

Az információ fényen utazik: közel a kvantuminternet kora

Jellemző példa erre, hogy a kvantumteleportáció területén sikerült olyan áttörést elérni, amely az információ fény segítségével történő átvitelét teszi lehetővé – ráadásul teljesen különálló kvantumpontok között...

MA 10:53

Az öt legjobb belépő szintű fényképezőgép vadfotózóknak 2025-ben

📷 A természetfotózás varázsa nehezen utolérhető – vadállatot, madarat vagy akár egy villámgyors mozdulatot elkapni mindig különleges élmény...

MA 10:37

Az ősi dinoszaurusz-múmia átírja a tankönyveket: paták és taréj

Megvizsgálandó, hogy milyen új titkokat rejtenek a dinoszaurusz-múmiák, egy amerikai kutatócsoport most minden eddiginél részletesebb, teljes testű rekonstrukciót alkotott az Edmontosaurus annectensről...

MA 10:29

A ChatGPT új kedvenc funkciója nem az, amire számítasz

💡 Hároméves lett a ChatGPT, és ennek örömére az OpenAI végre elárulta, melyek a legnépszerűbb funkciók a világ kedvenc MI-eszközében...

MA 10:22

Az RSV megelőzése átírhatja az asztma jövőjét

Új kutatások szerint ha sikerül megóvni az újszülötteket a légúti syncytialis vírus (RSV)-fertőzéstől, azzal drasztikusan csökkenthető a későbbi asztma kialakulásának kockázata...

MA 10:02

Az új Deadpool VR: még egy Marvel-agyrágó?

😎 Felmerül a kérdés, hogy lehet-e még újat mutatni a Marvel-univerzum fáradtnak tűnő világában egy VR-játékkal, amelyben Deadpool kapja a főszerepet...

MA 09:57

A Pikipek-láz visszatér: mindent a Pokémon GO Community Day-ről

🐢 November 30-án, vasárnap 14 és 17 óra között jön a Pikipek Community Day a Pokémon GO-ban, amikor szó szerint ellepnek minket a Pikipekek – és a szerencsésebbek fényes (shiny) változatot is kifoghatnak...

MA 09:21

Az olasz MI-pajzs: láthatatlan kupola óvja a városokat

Az olasz Leonardo védelmi vállalat bemutatta legújabb fejlesztését, egy MI-vezérelt védelmi kupolát, amely a városok és kulcsfontosságú infrastruktúrák védelmét szolgálja...

MA 09:15

A 401(k) nélkül is van élet: így gyűjts okosan nyugdíjra

💰 A nyugdíjcélú megtakarítások elengedhetetlenek, ha gondtalan időskort szeretnél. A legtöbben automatikusan 401(k)-t használnak, ha a munkahelyükön elérhető, hiszen ez bérlevonással gyűlik, így észrevétlenül nő a megtakarítás, ráadásul sok cég extra hozzájárulást is ad...

MA 09:08

A Batman-hatás: ahol megjelenik, megnyílnak a pénztárcák

Olasz kutatók meglepő eredményre jutottak: ha valaki Batman-jelmezben bukkan fel egy milánói metrókocsiban, az utasok kétszer olyan gyakran adják át a helyüket egy várandós nőnek, mint amikor Batman nincs jelen...

MA 09:01

A Playdate-en végre játékos hangüzeneteket küldhetsz

Megjelent egy aranyos hangüzenet-küldő alkalmazás a Playdate kézikonzolra, amely kifejezetten akkor jön jól, ha a baráti vagy a családi körödben többen is rendelkeznek ezzel a kütyüvel...

MA 08:50

Az igazi Linux-forradalom: sokkal többen használják, mint gondolnád

A legújabb statisztikák szerint a Linux csupán a számítógépek 3,49%-án fut, de ha jobban megnézzük, az adatokban az „ismeretlen” kategória további 4,21%-ot tesz ki...

MA 08:43

Az ember és a mesterséges intelligencia: szövetség vagy zűrzavar?

🤖 Az MI forradalma teljesen átírja a munkavégzés szabályait. Az évek során az MI-k megtanultak olvasni, írni, dalokat szerezni, sőt helyettünk vásárolni is...

MA 08:29

Az évszázad szenzációja jöhet: tényleg megvan a sötét anyag?

💫 Vizsgálják, hogy sikerült-e végre kézzelfogható nyomára bukkanni a világegyetem egyik legnagyobb rejtélyének, a sötét anyagnak...

MA 08:23

A bónuszok brutális különbsége mélyíti a nemek közti bérszakadékot

Az ausztrál munkaerőpiacon a férfiak átlagosan évi 3,1 millió forinttal (9 753 AUD, azaz kb...