MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

Top
hétfő 16:50

Egyetemet végzett milliárdosok – ki mit végzett?

A közvéleményben gyakran keringenek olyan történetek, amelyek a felsőoktatásból kimaradó vállalkozókról szólnak...

csütörtök 20:49

A laborban növesztett emberi vérkészlet forradalmasíthatja az ellátást

🩸 A kutatók sikeresen megalkották az első működőképes, miniatűr emberi csontvelő-rendszert, amely szerkezetében és működésében is a csontjaink belsejében található természetes „vérraktárt” utánozza...

csütörtök 20:18

A férfi, akiért még a metrón is segítünk

👨 A mindennapi élet kiszámíthatóságát könnyen megzavarhatja bármi szokatlan, így például egy véletlenül felbukkanó, Batman-jelmezbe öltözött ember is...

csütörtök 20:02

Az élet születése a föld alatt: óriási struktúrák nyomában

🔬 Érdekes felvetés, hogy a Föld mélyén megbújó, rejtélyes képződmények nemcsak bolygónk történetét, hanem a rajta kialakult élet gyökereit is magyarázhatják...

csütörtök 19:51

A Canon 12×36 IS III: stabil kép, tűéles részletek

A Canon 12×36 IS III távcső a természet szerelmeseinek és madármegfigyelőknek szinte kötelező darab...

csütörtök 19:34

A láthatatlan élet forradalma: itt a mikrobák védelmének ideje

Érdemes megérteni, hogy a mikrobák, bár láthatatlanok, mégis bolygónk működésének központi szereplői...

csütörtök 19:17

Az új SonicWall-hiba miatt sorra dőlhetnek a tűzfalak

Az amerikai SonicWall kibervédelmi vállalat sürgeti a felhasználókat, hogy minél hamarabb frissítsék a SonicOS SSL VPN rendszerüket...

csütörtök 19:03

Az új Nano Banana Pro forradalmasítja a képszerkesztést

Ki gondolta volna, hogy a digitális képszerkesztésben ekkora ugrás következhet? Néhány hónappal ezelőtt jelent meg a Nano Banana modell, amely a Gemini 2...

csütörtök 18:50

Az okosvécék nagy bukása Kambodzsában: ahol az elmélet csúful elhasal a gyakorlaton

🚽 Egy lényeges szempont, hogy a vidéki Kambodzsa lakosainak életét jelentősen megváltoztathatta volna egy új, okosvécékből álló szennyvízrendszer – mind a családok biztonsága, mind a környezet védelme érdekében...

csütörtök 18:34

Az intersztelláris üstökös, amely lázba hozta a NASA-t és a konteósokat

A NASA végre közzétette a már régóta várt 3I/ATLAS üstökösről készült képeket, ezzel véget vetve a találgatásoknak az objektum valódi természetéről...

csütörtök 18:18

Az XRP meg se rezzen a milliárdoktól: miért áll a piac?

💸 Fontos kérdés, hogy mi áll az XRP árfolyama mögött – vagy inkább a mozdulatlansága mögött –, amikor a Ripple hatalmas, mintegy 185 milliárd forintos (500 millió USD) tőkebevonást zárt le, és a vállalat értéke elérte a 14 800 milliárd forintot (40 milliárd USD)...

csütörtök 18:02

Az evolúció kulcsa: a véletlenszerű mutációk megdönthetetlen bizonyítékai

1943 novemberében Max Delbrück és Salvador Luria, egy fizikusból lett biológus és egy olasz–zsidó orvos, kísérlettel igazolták, hogy a mutációk véletlenszerűen, nem pedig külső hatásokra alakulnak ki a baktériumokban...

csütörtök 17:50

Az új Snapdragon laptopokkal végre játszhatsz kompromisszumok nélkül

🎮 A Microsoft és a Qualcomm jelentős fejlesztéseket hozott a Snapdragon X Elite processzorral szerelt laptopok játéktámogatásában...

csütörtök 17:33

Az Uber Eats már robotokkal szállít – borravaló nélkül

Az Uber Eats hamarosan a Starship Technologies robotjaival szállítja ki az ételeket és más termékeket Nagy-Britanniában...

csütörtök 17:19

A robotaxik nagy dobása: Kína végleg rákapcsolt az önvezetésre

Úgy tűnik, hogy az önvezető taxik, vagyis robotaxik területén kínai cégek jelentős lépéselőnybe kerültek az amerikai versenytársakkal szemben...

csütörtök 16:49

Az MI igazi forradalma csak most tör ki

Az utóbbi időben egyre többször hallani az MI-lufi kipukkanásáról, főleg, ha olyan cégekről van szó, mint az OpenAI vagy az Anthropic, amelyek hatalmas befektetéseket vonzanak...

csütörtök 16:34

A bonobók vérfürdője lerombolja a béke mítoszát

🐒 Félelmetes támadás nőstényektől Egy példátlanul véres támadás rázta meg a Kongói Demokratikus Köztársaság egyik bonobócsoportját februárban...

csütörtök 16:02

A sivatag fenegyereke: így ver túl mindenkit a Halál-völgy cserjéje

Kalifornia hírhedt Death Valley-je kegyetlen hőséget tartogat: nyáron a hőmérséklet árnyékban is eléri a 49 °C-ot...

csütörtök 15:49

Az USA, az Egyesült Királyság és Ausztrália hadat üzentek az orosz hackereknek

Az amerikai, brit és ausztrál hatóságok újabb szankciókat vezettek be a Media Land nevű vállalat ellen, amelyet azzal vádolnak, hogy orosz hackercsoportok – például a LockBit, a BlackSuit és a Play – számára nyújtott szolgáltatásokat...