MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
filózó
Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. CrestWall – 4K Wallpapers (iPhone/iPad)A CrestWall egy igényesen összeállított háttérképgyűjteményt kínál iPhone-ra, kiváló, 4K felbontásban...
🔥 Éjszaka közeledtével még mindig csörög a telefon – egy új ügyfélüzenet, egy komment, amire válaszolni kell, vagy egy trend, ami reggelre már elavultnak számít majd...
A Tesla idén nyáron ismét reflektorfénybe kerül, amikor közzéteszi második negyedéves autóeladási adatait – ezek alapján derül majd ki, vajon képes-e tartós növekedésre egy viharos év után...
Hihetetlen, de mégis igaz, hogy az egyik legizgalmasabb újdonság a 2026-os Computexen az Asustor új Flashstor 12 Pro Gen3 és Flashstor 6 Gen3 teljesen flashalapú NAS-ai voltak...
Erős nap a történelemben: az első transzpacífikus repülés, Argentína első női elnökének beiktatása és egy súlyos szöuli áruház-összeomlás mind ide köthető...
🔥 Európa idén nyáron extrém hőhullámmal szembesül, amely nemcsak hőmérsékleti rekordokat döntött, hanem a halálozások számát is jelentősen megnövelte...
A szupervulkán-kitörések messze a Föld leghatalmasabb vulkáni eseményei közé tartoznak. Egy-egy ilyen kitörés több mint 1 000 köbkilométer magma, kőzet és hamu felszabadításával fenekestül forgathatja fel a klímát, az élővilágot, vagy akár az emberi társadalmakat...
A vállalatok egyre gyakrabban alkalmazzák a generatív MI-t és az automatizált fejlesztői eszközöket, ennek azonban súlyos pénzügyi következményei lehetnek...
Érdemes megvizsgálni, hogy a kontinensre zúduló kánikula milyen extrém helyzeteket teremt: több mint 191 millió ember tapasztalhatta meg a 35 °C-ot is meghaladó hőmérsékletet, miközben kelet felé terjed a hőhullám...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Between Dates Calendar Math (iPhone/iPad)A Between Days egy egyszerű, letisztult alkalmazás, amellyel pillanatok alatt megtudhatjuk, hány nap választ el két tetszőleges dátumot...
Mai időutazásunkon felvillannak a történelem legélesebb fordulópontjai: a szarajevói merénylet nyomán világháború robbant ki, Poltaván eldőlt Európa hatalmi egyensúlya, a Case Blue hadművelet pedig új fejezetet nyitott a keleti fronton...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Between Dates Calendar Math (iPhone/iPad)A Between Days egy letisztult, könnyen kezelhető alkalmazás, amely villámgyorsan kiszámolja, hány nap választ el két tetszőleges dátumot...
Viharos nap a történelemben: király a csatatéren, uruguayi parlament feloszlatása, amerikai döntés a koreai háborúról, az Entebbébe térített gép és a Space Shuttle Columbia startja egyaránt ide esik...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. FormatX: Video Audio Converter (iPhone/iPad)A FormatX egy minden egyben formátum-átalakító eszköz, amely támogatja a videó-, hang- és képfájlok konvertálását...
Kiemelkedő fordulópontok sora: Julianus császár sorsfordító halála, a mongolok döntő győzelme, a karácsony amerikai szövetségi ünneppé válása és a Berlin Blockád légihídjának indulása új fejezeteket nyitott a történelemben...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. War Mongrels (iPhone/iPad)A War Mongrels egy izometrikus nézetű, valós idejű taktikai videojáték, mely a második világháború keleti frontján játszódik...