MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

kedd 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

MA 18:49

Az MI-képzés káosza: mindenki mást okol

😕 A munkahelyi MI-képzés nélkül ma már nehéz lenne lépést tartani: az alkalmazottaknak elengedhetetlen megtanulni, hogyan használják a mesterséges intelligenciát anélkül, hogy veszélyben éreznék az állásukat vagy a karrierjüket...

MA 18:33

A manhattani dugódíj máris kitisztította a levegőt

Januárban indult New Yorkban a dugódíjrendszer, amelyben az autósok csúcsidőben 3500 Ft-ot (kb...

MA 18:18

A gyenge kód leállítja a gyártást – milliárdos bukó a vége

💥 Meg kell vizsgálni, hogy a gyártóvállalatok miért nem engedhetik meg maguknak a gyenge szoftverfejlesztést, és miért vált kulcskérdéssé, hogy már a fejlesztés során beépüljön a biztonság, ne pedig utólag próbálják meg védeni az elkészült alkalmazásokat...

MA 18:02

Az ultravékony nanomembrán átírhatja az orvosi implantátumok játékszabályait

Egy dél-koreai kutatócsoport új, ultravékony és rendkívül hajlékony bioelektronikai nanomembránt fejlesztett ki, amely képes szinte észrevétlenül kapcsolódni az élő szövetekhez...

MA 17:34

Az MI‑chipversenyben a győztes már rég nem Kína

Érdekes felvetés, hogy az utóbbi évek amerikai exportkorlátozásai, amelyek célja Kína elzárása volt az élvonalbeli félvezetőktől, végül inkább Kína saját technológiai fejlesztését pörgették fel, mintsem lassították volna azt...

MA 17:17

Az ukrán hekkernő az orosz kibertámadások titkos segítője

🕵 Az amerikai hatóságok vádat emeltek egy 33 éves ukrán nő, Victoria Eduardovna Dubranova (ismertebb nevén Vika, Tory vagy SovaSonya) ellen, mert orosz hátterű hekkercsoportokat segített kibertámadásokban világszerte, többek között amerikai vízrendszerek, választási rendszerek és atomerőművek ellen...

MA 17:03

Jön az ausztrál tinédzser közösségimédia-tilalom: új korszak indul?

Érdemes megvizsgálni, hogy miért kelt világszerte ilyen nagy visszhangot az ausztrál döntés, amely elsőként tiltotta be országos szinten a 16 év alattiak közösségi médiához való hozzáférését...

MA 16:49

Az adelaide-i zöldterületek fenntarthatósága veszélyben?

Adelaide városának zöldterületei kulcsszerepet játszanak a klímaszabályozásban, a biodiverzitás megőrzésében és az élhetőség javításában...

MA 16:33

A perzselő hőség hátráltatja a kisgyermekkori fejlődést

A szokatlanul magas hőmérséklet miatt a kisgyerekek egyre nehezebben érik el a korai tanulási mérföldköveket, leginkább az olvasás és a matematika terén...

MA 16:17

A Mars-utazás küszöbén állunk – tényleg ennyire közel?

Az Egyesült Államok Tudományos, Mérnöki és Orvostudományi Akadémiái egy átfogó jelentésben részletesen bemutatják, miért lenne sorsfordító, ha végre űrhajósokat küldenénk a Marsra...

MA 16:03

Az Öböl tengeri tehenéi 20 millió éve ökológiai mérnökök

Az Arab-öböl sekély vizei ma is otthont adnak a manátuszokhoz hasonló tengeri emlősöknek, az úgynevezett dugongoknak, amelyek aktív szereplői a tengerifű-mezők életének...

MA 15:49

A pornótörvény utáni élet: VPN-láz és nézettségi mélyrepülés

Az idén bevezetett brit kötelező korhatár-ellenőrzés alaposan átalakította az online pornópiacot...

MA 15:34

A veszettség az átültetett veséből ütött rajta: végzetes tanulságok

Tipikus eset, amikor a baljós jeleket mind a beteg, mind az orvosok túl későn veszik észre...

MA 15:17

Az Amazon mostantól magától intézi a bevásárlást helyetted

🪵 Az Amazon új Shopping Essentials funkciója elhozta a jövőt: az Alexa+ mostantól magától rendeli meg azokat a termékeket, amelyeket a felhasználó előre kiválasztott, amint áruk a megadott szint alá csökken...

MA 15:02

A Minecraft legújabb frissítése: tombol a káosz, végre itt a lándzsa

🚩 Felmerül a kérdés, mire vágyunk leginkább egy hosszú év után a Minecraftban...

MA 14:49

Az FHA-hitelek refinanszírozása kilőtt – most mindenki spórolna

💰 A 30 éves, fix kamatozású lakáshitelek átlagos kamata 6,33%-ra nőtt azoknál a hiteleknél, amelyeknél a hitelösszeg legfeljebb 294 millió forint (806 500 USD)...

MA 14:33

Az ausztrál gyerekek búcsút inthetnek a közösségi médiának

Szerda reggel több mint egymillió ausztrál gyerek tapasztalta, hogy törölték vagy megszüntették közösségi médiafiókjukat...

MA 14:18

Betiltják a közösségi médiát a tiniknek Ausztráliában – működik?

🚫 Felmerül a kérdés, mennyit ér egy olyan tiltás, amiről mindenki tudja, hogy nem lesz tökéletes...