MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 00:01

Az okos varjak, akik megtisztítják a városainkat

🦉 A varjak mindig is különleges madarak voltak. Számtalan történet szól arról, hogy képesek megbarátkozni emberekkel, ajándékokat hoznak, sőt, olykor elveszett tárgyakat is visszaszolgáltatnak gazdáiknak...

Top
hétfő 16:50

Egyetemet végzett milliárdosok – ki mit végzett?

A közvéleményben gyakran keringenek olyan történetek, amelyek a felsőoktatásból kimaradó vállalkozókról szólnak...

szombat 20:34

A leépítések országában: 31 év után újrakezdés 60 évesen

💼 Washington államban Mike Kostersitz 31 évet töltött a Microsoftnál, majd egy hirtelen, egynapos leépítés során – 120 másik munkatárssal együtt – elveszítette állását...

szombat 20:02

Az ősember is csókolózott? Kiderült a csók meglepő eredete

💋 Köztudott, hogy a csók az emberi kapcsolatok szerves része, de vajon mennyire ősiek ezek a romantikus vagy éppen baráti gesztusok?..

szombat 19:49

A szabadgyökök rémtörténete: tényleg akkora a veszély?

⚠ A szabadgyökök rossz hírnévnek örvendenek, hiszen gyakran összefüggésbe hozzák a rákkal, az öregedéssel és olyan degeneratív betegségek kialakulásával, mint az Alzheimer-kór...

szombat 19:34

A pár szál is tönkreteszi a szíved

💔 Már napi néhány elszívott cigaretta is jelentősen megnöveli a szívbetegségek és a korai halál esélyét...

szombat 19:20

Az agyolvasó eszközök a magánélet végét jelentik?

👀 Nancy Smith 2008-ban egy autóbaleset után deréktól lefelé megbénult, ezzel együtt sok mindenről le kellett mondania – például a zongorázás öröméről...

szombat 19:02

Az éghajlati forduló után: merre tart a világ tíz év múltán?

Tíz év telt el azóta, hogy a világ országai elfogadták a párizsi klímaegyezményt, amely ambiciózus célt tűzött ki: megakadályozni, hogy a globális átlaghőmérséklet 2 Celsius-foknál nagyobb mértékben emelkedjen az iparosodás előtti szinthez képest, és lehetőség szerint 1,5 fok alatt tartani azt...

szombat 18:50

Az év választási botránya: eltűnt a titkos kulcs, ugrottak az eredmények

Egy vezető biztonsági szervezet kénytelen volt érvényteleníteni az éves vezetőségi választás eredményeit, miután egy hivatalos személy elveszítette azt a titkos kulcsot, amely elengedhetetlen lett volna a szavazatok visszafejtéséhez...

szombat 18:34

Az enzimek titka: így zajlik valójában a hidrogéntermelés

A hidrogenáz enzimek kulcsszereplők a hidrogéngáz (H2) bontásában és előállításában, így különös érdeklődésre tartanak számot a fenntartható energiaforrásokat kutató tudósok körében...

szombat 18:17

Az X leleplezi, honnan valók a felhasználói

🔍 Az X egy új, „Erről a fiókról” nevű funkciót vezet be, amely részletesebb információkat jelenít meg a felhasználói profilokon...

szombat 17:50

Az új Bose QC Ultra fejhallgató tényleg mindent visz, vagy csak hype?

A Bose második generációs QC Ultra fejhallgatója végre megjelent, és azonnal felmerül a kérdés: vajon méltó kihívója lehet az abszolút kedvenceknek, mint a Sony XM6 vagy az Apple AirPods Max?..

szombat 17:34

A csendben fortyogó vulkánok rejtélye végre megfejtve

🔥 A vulkánok viselkedésének régóta fennálló rejtélyére találtak választ kutatók: a feltörő magma nemcsak a légnyomás csökkenésekor képez gázbuborékokat, hanem pusztán a belső nyíró- és keverőerők hatására is...

szombat 17:02

Az áttörés kulcsa: egyetlen atom indíthatja el a kvantuminternetet

A kvantuminternet megvalósítása évek óta foglalkoztatja a kutatókat, most viszont egy új felfedezés még közelebb viheti ezt a forradalmi technológiát...

szombat 16:34

Az amerikai légiközlekedésben kitört a totális káosz

Az amerikai Közlekedési Minisztérium országos kampányt indított, hogy visszaszorítsa a repülőtereken és járatokon kirobbanó utasbalhékat...

szombat 16:18

Az MI és Taylor Swift uralja a világot: a paraszociális kapcsolatok éve

👑 Első pillantásra úgy tűnhetett, hogy a közösségi média és az MI csevegőbotok csak új szintre emelték a rajongást, de a Cambridge Dictionary szerint mindez már saját szót is kapott: a „parasocial” lett 2025 szava...

szombat 15:50

Az űrbéka, a rovarapokalipszis és a CDC totális káosza

Érdemes áttekinteni, milyen váratlan és olykor ijesztő fejlemények születtek a tudomány világában az elmúlt héten...

szombat 15:33

Az esőerdők a vártnál ellenállóbbak a klímaváltozással szemben

🌳 Egzotikus tealevél-kísérletekkel vizsgálták, hogyan viselik a trópusi esőerdők a klímaváltozás hatásait...

szombat 15:19

A rovarvilág összeomlik – veszélyben az élelmiszerünk?

Képzeld el, hogy nyáron autózol az országúton lehúzott ablakokkal, a szél fújja a hajad, és az élvezetes pillanatokat csak néha-néha zavarja meg egy-egy bogárnyom a szélvédőn...