MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

hétfő 21:00

Az Instagram felrobbant: Kylie Jenner ismét bikiniben pózol

A hétfői rosszkedvre itt a tökéletes ellenszer: Kylie Jenner újabb bikinis szelfivel lepte meg követőit, és elképesztően néz ki...

MA 07:37

A bérlakáspiac rejtett urai: a RealPage-botrány utóélete

Ilyen esetre példa, amikor a bérbeadók egy, a legtöbbjük által használt szoftver segítségével manipulálják a bérleti díjakat az Egyesült Államokban...

MA 07:24

Az árzuhanásnak vége: elszáll a RAM ára

📈 Érdemes megvizsgálni, hogy jelenleg nem rossz időpont újítani a gamer PC-t, legalábbis ha grafikus kártyát szeretnél...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 11/26

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     LightTrac (iPhone/iPad)A LightTrac egy korszerű, fizika alapú alkalmazás, amely kültéri fotósoknak nyújt nélkülözhetetlen segítséget az ideális fényviszonyok megtalálásához...

MA 07:08

A Google Térképen végre névtelenül írhatsz értékelést

Négy új funkció érkezik a Google Térképbe (Google Maps), köztük az anonimitás lehetősége...

MA 06:58

Az MI-piac átrendeződik: a bérelhető GPU-k könyörtelen túlélési próbája

Az MI-forradalommal robbanásszerűen megnőtt a kereslet a bérelhető GPU-k iránt, mivel sok cég nem tud saját hardvert beszerezni...

MA 06:51

Az összeolvadó csillagpár kihívás elé állítja Einstein elméletét

💫 Nagyjából 4000 fényévnyire egy ritka csillagpárt figyelnek: a ZTF J2130 rendszer két tagja végzetes spirálban forog egymás körül, szinte összeérnek...

MA 06:43

Az atomerőművek újjáélesztésével törne ki az energiasokkból Nagy-Britannia

Nagy-Britanniában robbanásszerűen növekszik az energiaigény az MI és az elektrifikáció terjedése miatt, ezért a kormány gyökeres változtatásokat tervez az atomenergia-szektorban...

MA 06:37

Az első MI-hálaadás: a mesterséges vendég már az asztalnál

A Hálaadás már nemcsak a pulykáról és a családi összejövetelekről szól, egyre határozottabban jelen van a mesterséges intelligencia is...

MA 06:30

Az Amazon drónja elvágta a netkábelt – új vizsgálat indul

🛩 Az Amazon szállítódrónja komoly bajba sodorta a céget Texasban, miután egy baleset során leszakított egy internetkábelt...

MA 06:24

Az emberi sorsok ledöntik a klímafáradtság falát

Amikor Belémben, az Amazonas szívében megrendezték a COP30-at, ismét a világ figyelme a politikai egyezkedésekre és emissziós vállalásokra szegeződött...

MA 06:18

A levesóriás visszavág: szó sincs 3D-nyomtatott húsról

A Campbell’s közleményben hárította azokat a vádakat, amelyek szerint leveseiben 3D-nyomtatott, laboratóriumi vagy biotechnológiai úton előállított húst használ...

MA 06:06

Történelmi események a mai napon (November 26.)

Erős fordulópontok és emlékezetes pillanatok egy napon: Tutankhamon sírjának feltárása, a Sykes–Picot-egyezmény nyilvánosságra hozatala, a Casablanca (Casablanca) premierje és a mumbai merényletek tragédiája sodorta tovább a történelmet...

MA 06:02

Az Alzheimer-kór Achilles-sarkát találták meg

Egy dán kutatócsoport sorsfordító felfedezést tett: megtalálták az Alzheimer-kór egyik rejtett kiváltó okát, amely új utakat nyithat a betegség elleni küzdelemben...

kedd 20:49

Az igazságtalan boldogság: miért védi a rendszer a középosztályt?

Az utóbbi években a világ kormányai egyre jobban aggódnak a növekvő egyenlőtlenség, a társadalmi összetartás gyengülése és az intézményekbe vetett bizalom csökkenése miatt...

kedd 20:33

Az IKEA új, színes Bluetooth-hangszórói még idén megérkeznek

Az IKEA az év végén dobja piacra legújabb Teklan-kollekcióját, amely a svéd dizájner, Tekla Evelina Severin közreműködésével készült...

kedd 20:17

Az AstroLab 37: 44 szintetizátor egyetlen zsebbillentyűzetben

🎵 Az Arturia legújabb fejlesztése, az AstroLab 37, igazi áttörést hoz a színpadi billentyűzetek világában...

kedd 20:01

A ROG Ally tovább bírja – játékprofilokkal spórol az akkun

🔋 A ROG Ally kézikonzol mostantól 40 népszerű játékhoz automatikusan alkalmaz játékprofilokat, így minden játékban optimalizálja a képkockaszámot (FPS) és az energiafogyasztást...

kedd 19:49

Az IBM átveszi az uralmat az MI-piacon?

🤖 Az IBM továbbra is a legellenállóbb vállalatok közé tartozik a technológiában, különösen a mesterséges intelligencia területén...