MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

kedd 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

MA 08:08

Az Allestree Park újjászületik: együtt ünnepel ember és természet

🌲 Egy friss kutatás rávilágított arra, milyen pozitív hatásokkal jár a Derby városában zajló, példás városi újravadonítási kezdeményezés – ráadásul nemcsak a természetre, hanem a helyiekre is...

MA 08:02

A ChatGPT letarolta az iPhone-t, de érkezett egy váratlan trónkövetelő

😲 Az Apple idén is közzétette a legnépszerűbb ingyenes és fizetős iPhone- és iPad-alkalmazásokat, játékokat, valamint az Apple Arcade legjobb letöltéseit...

MA 07:57

Az Uránusz és a Neptunusz mélye mást rejt, mint hittük

🚀 Az Uránusz és a Neptunusz sokáig az úgynevezett jégóriás bolygók csoportjába tartoztak, azonban egy új svájci kutatás radikálisan felülírhatja ezt a képet...

MA 07:50

A Google kulcsembere lett az MI-verseny új sztárja

👑 A Google jelentős lépést tett a mesterséges intelligencia infrastruktúrák versenyében: Amin Vahdatot nevezték ki a vállalat új MI-infrastruktúra-technológiai vezetőjévé, közvetlenül Sundar Pichai vezérigazgató alá rendelve...

MA 07:43

A Meta új MI-je titokban készül?

🕵 Mark Zuckerberg stratégiai váltással készül felrázni a Meta mesterségesintelligencia-fejlesztését. Az új MI-modell, amelyet házon belül Avocado kódnéven emlegetnek, 2026 körül érkezhet – de a korábbi nyílt forráskódú szemlélettel szemben ezúttal zárt lehet...

MA 07:38

Az Ellisonok hadat üzennek: háború a Paramounttal az HBO-ért

Ez a jelenség jól illusztrálható azzal, hogy a médiapiacon a nagypályások sosem alszanak: a Paramount agresszív ajánlattal próbálja megszerezni a Warner Bros...

MA 07:30

Az Amazonas esőerdeje végzetes klímaválság árnyékában

Az Amazonas esőerdőjét egyre hosszabb és forróbb szárazságok sújtják, és meglepő válaszok születnek arra, meddig bírják ezt a fák...

MA 07:22

Az első MERS-eset 12 év után Franciaországban: a tevehús a bűnös?

Franciaországban ismét felütötte a fejét egy halálos koronavírus által okozott betegség, a közel-keleti légúti szindróma (MERS), amely eddig főként a Közel-Keleten volt jellemző...

MA 07:15

A ChatGPT lett az Apple idei legnépszerűbb appja

Az Apple közzétette éves toplistáját, amely szerint az Egyesült Államokban a ChatGPT volt 2025-ben a legtöbbször letöltött alkalmazás – a játékokat nem számítva...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 12/11

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Animatic (iPhone/iPad)Az Animatic egy rajzolásalapú animációkészítő alkalmazás, amely kezdők és profi felhasználók számára is alkalmas...

MA 07:10

A tengeri sünök rejtélyes pusztulása: világjárvány tarol az óceánokban?

A tengeri sünök fontos szerepet töltenek be a tengeri ökoszisztémákban: úgy viselkednek, mint a szárazföldi nagy növényevők, ugyanis legelésznek, algákat rágcsálnak és tisztán tartják a zátonyokat...

MA 07:01

Az Apple TV és az Apple Music ismét összeomlott – káosz

Az Apple TV és az Apple Music szolgáltatásai rövid időre elérhetetlenné váltak néhány felhasználó számára, miután egy központi hiba miatt nem tudtak sem zenét hallgatni, sem videót streamelni...

MA 06:57

Az mRNS-vakcinák ritka szívkárosodását azonosították

A kutatók végre fényt derítettek arra, hogyan válthat ki ritka szívizomgyulladást az mRNS-alapú COVID-vakcina – ez a mellékhatás szinte kizárólag fiatal fiúknál és harminc év alatti férfiaknál jelentkezik, ritka esetekben...

MA 06:45

Az egész férfiközpontú internet aranybányává vált

💸 Az internet perifériájáról indult férfiközpontú közösségek – a teljes online „manoszféra” – mára hatalmas üzletté nőtték ki magukat...

MA 06:37

A mesterséges intelligencia mostantól a randizást is megkönnyíti

💖 Az online társkeresők egyik legnehezebb pillanata, amikor fogalmad sincs, mit írj elsőre...

MA 06:31

Az utolsó Park City-i Sundance: sztárparádé, világpremierek, váratlan fordulatok

🎥 Tipikus példája annak, amikor egy fesztivál történelmet ír: a 2026-os Sundance Filmfesztivál az utolsó lesz Park City-ben, és minden eddiginél erősebb, változatosabb programot ígér...

MA 06:22

Az MI már a Spotify-lejátszási listádat is átírja

🎵 A Spotify új bétás funkciója, a Prompted Playlists, végre tényleg átadja a vezérlést a hallgatóknak...

MA 06:14

A mesterséges intelligencia új csodafegyvere: a Qualcomm bekebelezi a Ventanát

A Qualcomm felvásárolta a Ventana Micro Systems-t, amely a RISC-V-alapú processzorok tervezésével vált ismertté...