2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

vasárnap 21:24

Az Nvidia fénysebességre vált: kulisszák mögött az optikai áttörés

💫 A 2020-as évek közepére rendkívül felgyorsult a mesterséges intelligencia fejlődése, és ehhez az Nvidia óriási teljesítményű GPU-rendszerei adták az alapot...

vasárnap 20:12

Az intézményi tőke tartja felszínen a bitcoint a pánik közepette

A bitcoin ismét a figyelem középpontjába került, hiszen árfolyama 67 100 dollár (kb...

vasárnap 19:33

A bűvös dohánylevél: öt hallucinogén egyetlen növényben

Képzeld el, egy rakás pszichedelikus anyag egyetlen ártatlan dohánylevélben – igen, ezt most tudományosan is megcsinálták!..

vasárnap 19:23

Az adatlopás új hulláma célkeresztbe vett 766 Next.js szervert

Veszélybe kerültek a legnagyobb felhőszolgáltatókra épülő rendszerek, miután hackerek tömegesen támadták meg a Next...

vasárnap 19:13

Az oxigénhiány meglepő titka: védhet a magaslati élet a cukorbetegségtől?

A vörösvértestek nemcsak oxigént szállítanak: most úgy tűnik, komoly szerepük lehet abban, hogy a magaslati lakosok ritkábban válnak cukorbeteggé...

vasárnap 19:01

Az Orion űrkapszula lézerrel élő 4K videót küld a Holdról

📺 Négy űrhajós indult útnak a Hold köré az Artemis II küldetésen, új fejezetet nyitva az űrkommunikációban is...

vasárnap 18:56

Az Artemis II a Holdra megy, vécégondok ide vagy oda

🚀 Már útjuk felénél járnak az űrhajósok, akik történelmi jelentőségű holdkerülő repülésre készülnek az Orion-kapszulában...

vasárnap 18:45

Az USA titkai tényleg egy tanulókártya-appból szivárogtak ki?

Egy Quizlet nevű online tanulási platformon februárban olyan, nyilvánosra állított kártyacsomag bukkant fel, amely valószínűleg rendkívül bizalmas, texasi biztonsági létesítményekhez köthető eljárásokról árult el információkat...

vasárnap 18:33

Az MI felforgat mindent: így lesz a gyerekednek munkája a jövőben

Kisgyerekes szülőként az ember hajlamos túlparázni, hogy merre érdemes vinni a lurkót: magán- vagy állami suliba?..

vasárnap 18:23

Az MI-ügynökök betörnek a kriptópiacra

A kínai Ant Group blokklánc-részlege, az Ant Digital Technologies bemutatta az Anvita platformot, amely lehetővé teszi, hogy önjáró MI-ügynökök minimális emberi beavatkozás mellett vagyont birtokoljanak, kereskedjenek és azonnali fizetéseket bonyolítsanak le...

vasárnap 17:01

Az Artemis II úton, de gond van a holdűrhajósok vécéjével

Az űrutazás következő mérföldkövéhez érkezett a NASA, hiszen az Artemis II küldetés négy asztronautája már néhány napja úton van a Hold felé...

vasárnap 16:56

Az olvadó Antarktisz kincseiért megindul a bányászroham?

🚧 Az Antarktisz felszínét hatalmas arany-, ezüst-, réz- és vaslelőhelyek rejtik – eddig ezek megközelíthetetlenek voltak, de az éghajlatváltozás most mindent felboríthat...

vasárnap 16:45

Az ultravékony fénycsapda áttörést hoz a fény irányításában

💡 Lengyel kutatóknak minden eddiginél vékonyabb rétegben sikerült csapdába ejteniük az infravörös fényt: mindössze 40 nanométer vastagságban, ami ezerszer vékonyabb, mint egy hajszál...

vasárnap 16:12

Az ősi szupernóva feltárul: új rejtélyre bukkant a NASA távcsöve

Közel kétezer évvel ezelőtt kínai csillagászok egy különös, ideiglenes „vendégcsillagot” figyeltek meg az éjszakai égbolton, az Alfa Centauri irányában...

vasárnap 16:01

Az égre tükröt küldenének – jön az álmatlan káosz?

Az elkövetkező években radikálisan megváltozhat a Föld éjszakai égboltja: a Reflect Orbital nevű cég tervezi, hogy hatalmas tükrökkel felszerelt műholdakat állít pályára, melyek képesek lennének 5-6 km széles földi területekre napfényt vetíteni – a telihold fényétől a verőfényes dél ragyogásáig...

vasárnap 15:57

Az Instax Mini 13: a nosztalgia varázsa vagy olcsó retró?

Érdemes megvizsgálni, hogy a digitális korszakban mennyire van helye egy analóg instant fényképezőgépnek, mint a Fujifilm Instax Mini 13...

vasárnap 15:47

A Palantir MI-forradalma, amit senki sem tud lemásolni

🛡 Érdekes felvetés, hogy a legforróbb techmeló, a forward-deployed engineer (FDE), gyökeresen felforgatta a szoftveripart, miközben a legtöbb cég aligha tudja azt valóban megvalósítani...

vasárnap 15:24

Az MI-től rettegünk: az elavulás réme sosem volt erősebb

Az amerikai munkahelyeken új, mindennapokat átszövő félelem uralkodik: a munkavállalók egyre kevésbé attól tartanak, hogy elbocsátják őket, inkább attól, hogy munkájuk jelentéktelenné válik a mesterséges intelligencia előretörése miatt...

vasárnap 15:12

Az MI most tényleg felforgatja az amerikai iskolákat?

Az amerikai oktatás ma éles kanyarban halad. Mesterségesintelligencia-cégek azt ígérik, hogy a munkaerőpiac teljesen átalakul, miközben már senki sem tudja igazán, mit is jelent pályára készen állni...

vasárnap 15:02

A torinói lepel rejtélye: sárgarépa- és korallnyomok?

Kevesen vannak, akik ne hallottak volna a torinói lepelről, arról a titokzatos vászonról, amelyet sokan Jézus testét beborító halotti lepelként tisztelnek...

vasárnap 14:57

A védelmi ipar lehet a gyengélkedő európai autógyárak mentőöve?

🛡 Az európai autóipar kritikus állapotban van. Az elektromos autók iránti kereslet jelentős lassulása, a kínai versenytársakkal szemben elvesztett piaci részesedés, valamint a megemelkedett hitelköltségek olyan tökéletes vihart idéztek elő, amelyből még nem sikerült kilábalni...

vasárnap 14:45

A frankfurti mélyben rejtőző római szentély sötét titkai

Frankfurt északi részén, egy építkezés során egyedülálló római szentély maradványai kerültek elő, amelyek egészen új fényt vethetnek az ókori vallási szokásokra...

vasárnap 14:34

Az agy öregedését fékező új fehérje áttörést hoz a memóriában

💡 Lényeges, hogy az öregedés elsőként a hippokampuszt sújtja, amely az emlékezet és a tanulás központjaként működik...

vasárnap 14:02

Az okosórák kora lejárt: jön a láthatatlan fitneszforradalom

A hagyományos okosórák világa után most a kijelző nélküli, teljesen diszkrét fitneszpántok kora érkezett el...

vasárnap 13:56

Az otthoni kamerák valóban biztonságot adnak, vagy többet ártanak?

Képzeld el: a szomszédod felszerel egy új kapucsengő-kamerát, sőt, talán rögtön kettőt is...

vasárnap 13:45

Az irodai technika már diktál, nem a főnök?

💻 A brit munkahelyeken a megbízható technika ma már csendben felér az alapfizetés jelentőségével...

vasárnap 13:34

Az Artemis II legkényesebb kérdése: mi legyen a fagyott vizelettel?

Az Orion űrhajó jelenleg tíznapos mélyűrbeli útja során jóval közelebb jár a Holdhoz, mint a Földhöz, és eddig minden meglepően zökkenőmentesen megy...

vasárnap 13:23

Az új szponzorválság ára: 80 millió fontos bukó a Premier League-ben

Fontos kérdés, hogy mi vár a Premier League csapatokra azután, hogy a szerencsejáték-cégek hirdetéseit kitiltották a mezekről a következő idénytől...

vasárnap 13:12

Az iskolapad helyett már a bíróságon: így lett MI-cégvezér

Logan Brown már 12 évesen a helyi ügyészségen töltötte a szabadidejét, miközben többen csak álmodoznak a pályaválasztásról ilyen korban...