MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 19:01

Az egyenlő mosdóélmény nyitja: nemsemleges mosdók

🚽 Ha legközelebb koncerten, sportmeccsen vagy zsúfolt eseményen jársz, új mosdómegoldással találkozhatsz: a hagyományos női és férfi mosdók mellett uniszex fülkék is megjelenhetnek...

MA 18:49

Az év zenei eseménye: indul a BTS monumentális világturnéja

Visszatér a BTS – világszerte tombolhatunk A K-pop királyai, a BTS 2026-2027-ben hatalmas világturnéra indulnak, hogy újra meghódítsák a rajongók szívét...

MA 18:34

Az MI és fémvegyületek átírhatják az antibiotikum-fejlesztés szabályait

A gyógyszerfejlesztés új korszakát hozhatja el a robotika és a fejlett kémiai eljárások ötvözése: kutatóknak sikerült több száz fémalapú vegyületet előállítani és tesztelni mindössze egy hét alatt...

MA 18:19

Az űrbéli adatközpont: forradalom vagy pénztemető?

A mesterséges intelligencia robbanásszerű térnyerése és a mind növekvő számítási igény új szintre emelte a technológiai vállalatok versenyét az adatközpontok fejlesztésében...

MA 18:01

Az Insta360 MI-s webkameráival végleg búcsút inthetünk a rossz képnek

📷 Az Insta360 két új, MI-alapú webkamerával, a Link 2 Pro-val és a Link 2C Pro-val tör be a piacra, kifejezetten tartalomkészítőknek, tanároknak és távdolgozóknak...

MA 17:50

Az Ötzi-múmiában halálos vírus lappangott már 5300 éve?

😷 Ötzi, az Alpokban talált híres, 5300 éves jégmúmia és egy 45 000 évvel ezelőtt Szibériában élt férfi is ugyanazzal, magas kockázatú HPV-vírussal voltak megfertőzve...

MA 17:34

Az MI-laborok új hulláma átírja a gyógyszerkutatás szabálykönyvét

🧪 A mesterséges intelligencia villámgyorsan tör be a gyógyszerkutatásba, hogy a fejlesztési időket évekkel rövidítse, miközben nőnek a kutatási költségek...

MA 17:02

Az első holdszálloda: 90 millió forintért alhatsz a Holdon

🌑 Felmerül a kérdés, hogy tényleg eljött-e az űrturizmus ideje, amikor már most lehetőség nyílik lefoglalni egy szobát a Holdon 250 000 dollárért, vagyis nagyjából 90 millió forintért...

MA 16:50

Az első nagy mentőcsomag: 9 milliárd a természetvédelemre

A 2023-ban alapított Superorganism új típusú kockázatitőke-társaságként tűnt fel a színen: kifejezetten olyan startupokat támogat, amelyek elősegítik a biodiverzitás megőrzését...

MA 16:34

A kriptó Indiában: szelfi és GPS nélkül nem megy

📱 India szigorú új szabályokat vezet be a kriptovalutával foglalkozó szolgáltatók számára a csalások, pénzmosás és terrorizmus finanszírozásának visszaszorítása érdekében...

MA 16:18

Az új cukor: édes élvezet bűntudat nélkül

🍰 Az édes élvezetek kedvelőinek jó hír: amerikai kutatók olyan újszerű cukrot fejlesztettek ki, amely megtévesztésig hasonlít a hagyományos kristálycukorra, ám jóval kevesebb hátránnyal jár...

MA 16:01

A briteknél vége az online magánszférának: jön az előzetes cenzúra

A brit kormány jelentősen szigorította az Online Safety Act (OSA) előírásait: 2026...

MA 15:52

Az új Slackbot a munkahelyi MI-forradalom titkos sztárja?

Salesforce teljesen megújította a Slackbotot, hogy a vállalati MI-harcban felvegye a kesztyűt a Microsofttal és a Google-lel szemben...

MA 15:36

Az iPhone Air és a Galaxy S25 Edge párharcának meglepő győztese

Érdemes megvizsgálni, mit jelentenek az új, ultravékony mobiltelefonok a mindennapi használatban...

MA 15:17

A memóriaválság új hulláma: elszállnak a tűzfalárak

A memóriapiac globális hiánya most a kiberbiztonsági eszközöket is elérte: a tűzfalak ára 2026-ra akár meg is duplázódhat, rontva a gyártók és a felhasználók helyzetét egyaránt...

MA 15:02

Az üzleti utazók repítik a Deltát rekordévre

A Delta Air Lines ismét rekordközeli eredményeket vár, főként a prémium kategóriában tapasztalható ugrásszerű keresletnek köszönhetően...

MA 14:49

Az első lépés: a repülőkről sugárzott vezeték nélküli energia

Egy amerikai startup, az Overview Energy mérnökei először sugároztak sikeresen energiát egy mozgó repülőgépről a földre...

MA 14:33

Az új Slackbot: MI-szuperügynök a munkahelyeden

A Slackbot teljesen új időszámításba lépett: mostantól nemcsak automatizált asszisztensként segít, hanem teljes értékű MI-ügynökké vált...

MA 14:18

Az ivóvíz láthatatlan mikrohabjai észrevétlenül szennyeznek minket

Nap mint nap szinte észrevétlenül szennyezzük magunkat mikro- és nanoműanyagokkal, amikor például csapvizet öntünk egy műanyag pohárba...