MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 14:18

Az új anakondát Will Smith fedezte fel

🐍 A 2024-es év nagy meglepetést hozott a tudósoknak: egy eddig ismeretlen óriás anakondát fedeztek fel Dél-Amerikában...

MA 14:02

A nagy amerikai bankok leszámolnak a kriptójutalmakkal

Az amerikai Szenátus előtt álló kriptotörvény kapcsán újabb konfliktus bontakozott ki: a Coinbase látványosan tiltakozik a bankok törekvése ellen, mert megpróbálják kizárólag maguknak lefoglalni a stabilcoin-megtakarítások utáni jutalmak kifizetését...

MA 13:50

Az űr új rejtélye: titokzatos lökéshullám egy halott csillagnál

🛰 Egy halott csillag, az RXJ0528+2838 körül felfedezett különleges lökéshullám alaposan zavarba hozta a csillagászokat...

MA 13:33

Az új Division 3 lehet az év legnagyobb dobása

A Division-sorozat rajongói izgatottan várják, min dolgoznak a Massive Entertainment fejlesztői a Division 3-mal...

MA 13:17

A OnePlus tényleg kukázza a két legjobban várt mobilját?

😱 A OnePlus 2026-ra tervezett két kiemelt készülékét, a OnePlus Open 2-t és a OnePlus 15s-t is törölhette a cég, legalábbis egy megbízható forrás szerint...

MA 12:49

Az Aadhaar-kártya is hamarosan bekerülhet a Google Walletbe Indiában

💳 A Google Wallet hamarosan támogathatja az indiai Aadhaar-kártyát, amire régóta várnak a felhasználók...

MA 12:33

Az autofókuszos szemüveg megváltoztatja, ahogy a világot látjuk

A finn IXI nevű startup több mint 14,5 milliárd forintot gyűjtött be, hogy olyan okosszemüveget fejlesszen, amely automatikusan, a viselő tekintetét követve állítja a fókuszt...

MA 12:18

Az éhező galaxis: a fekete lyuk lassú gyilkossága

🪴 Az Univerzum egyik legrégibb, már kihalt galaxisát fedezték fel, ahol egy növekvő szupermasszív fekete lyuk lassan, de biztosan megfosztotta otthonát az életet adó üzemanyagtól...

MA 12:03

A vazelin tényleg csodát tesz az arcbőrrel?

Ahogy beköszönt a hideg, száraz tél, egyre többen keresik az olcsó megoldásokat a kiszáradó bőr ellen...

MA 11:49

A Google Fotókba végre megérkezik a rég várt újdonság

A Google Photos hamarosan olyan frissítést kaphat, amelyet a felhasználók régóta várnak: végre beállíthatóvá válik a videók lejátszási sebessége...

MA 11:34

Az MI bekebelezi a zenét: lenyeljük ezt is?

A francia zenei streaming szolgáltató, a Deezer platformjára naponta körülbelül 50 ezer, teljes egészében MI által generált dal kerül fel...

MA 11:01

A Google rákapcsol: jön az MI-alapú pénztárforradalom

A Google bejelentette az Universal Commerce Protocol (UCP) nevű kereskedelmi szabványt, amely forradalmasítja az online vásárlást...

MA 10:57

Az MSI tarol: brutális erő és MI a CES 2026-on

🔥 A 2026-os CES-en az MSI szakított a hagyományos játékos imázzsal, és minden figyelmét az üzleti, valamint az MI-alapú eszközök fejlesztésére fordította – legyen szó laptopokról, asztali gépekről vagy All-in-One PC-kről...

MA 10:50

A legmenőbb kütyük, hogy idén végre betartsd a fogadalmaidat

Ismét eljött az év, amikor nagy elhatározásokkal vágsz neki a januárnak: többet mozogsz, kevesebbet költesz, vagy végre rendet tartasz a lakásban...

MA 10:43

Az új Monero-láz: tarolnak az adatvédelmi tokenek

A kriptopiac mozgalmas időszakát éli: miközben a Monero (XMR) történelmi csúcsra emelkedett, a többi, adatvédelemre fókuszáló token is lendületesen erősödött...

MA 10:36

Az új Galaxy S27 Ultra tényleg kiváltja a profi kamerát?

A Samsung hamarosan bemutatja a Galaxy S26 szériát, valószínűleg február utolsó hetében...

MA 10:29

A láthatatlan járvány, amely szinte mindannyiunkat érint

Az amerikai felnőttek közel 90%-ának legalább egy kockázati tényezője van a CKM-szindrómához, amely egyesíti a szív-, vese- és anyagcsere-problémákat – vagyis szívbetegséget, vesebajt, cukorbetegséget és elhízást...

MA 10:23

Az arany új rekordot döntött: még sosem volt ilyen drága

Az arany ára minden korábbinál magasabbra, unciánként 4 600 dollárra (kb...

MA 09:58

Az éjszakai portás visszatér: Tom Hiddleston nagyot villant

🕵 Beköszöntött a brit kémsorozatok új aranykora, hiszen tíz év után visszatért az Az éjszakai portás (The Night Manager)...