MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

vasárnap 00:01

Az okos varjak, akik megtisztítják a városainkat

🦉 A varjak mindig is különleges madarak voltak. Számtalan történet szól arról, hogy képesek megbarátkozni emberekkel, ajándékokat hoznak, sőt, olykor elveszett tárgyakat is visszaszolgáltatnak gazdáiknak...

Top
hétfő 16:50

Egyetemet végzett milliárdosok – ki mit végzett?

A közvéleményben gyakran keringenek olyan történetek, amelyek a felsőoktatásból kimaradó vállalkozókról szólnak...

MA 16:50

Az arany nyakék: a trón erejének jelképe

💍 Ez a hatodik századi arany pektorálé (mellékékszer) a bizánci ékszerkészítés egyik kivételes alkotása...

MA 16:33

Az MIT-botrány: kiderült, kamu volt a nagy MI-tanulmány

Májusban az MIT vezetősége bizalmatlanságot szavazott meg egy tudományos előpublikációval szemben, amely azt állította, hogy egy MI-alapú anyagtudományi felfedezőeszköz 1 018 amerikai kutatónak segített áttörő eredményekhez jutni...

MA 16:18

Az MI tényleg képes fénysebességgel gondolkodni?

⚡ A mesterséges intelligencia fejlődése régóta küzd egy alapvető akadállyal: a számítási sebesség és az energiafogyasztás együttes korlátaival...

MA 15:49

Az amerikai DJI-drónoknak tényleg befellegzett?

December 23-ig döntés születik a DJI sorsáról az Egyesült Államokban: ha a kínai vállalatot felveszik a Szövetségi Kommunikációs Bizottság (FCC) úgynevezett tiltólistájára, többé nem hozhatna forgalomba új termékeket az USA-ban...

MA 15:34

Az iPad végre ablakos – de tényleg kézre áll?

💻 Az iPadOS 26 az iPad egyik legnagyobb frissítése, amióta 2010-ben bemutatták az első modellt...

MA 15:17

A CERN új MI-szabályai: így használhatod a mesterséges intelligenciát

A svájci CERN-ben a mesterséges intelligencia ma már mindenütt jelen van: bekerült az eszközökbe, a szoftverekbe, a felhőszolgáltatásokba, de a dolgozók is bevihetik, vagy akár saját maguk is fejleszthetnek MI-megoldásokat...

MA 14:49

A Windows 11 fájlkezelője végre villámgyors és átlátható lesz

⚡ A Microsoft új változtatásokat vezet be a Windows 11 Fájlkezelőjében, hogy gyorsabban induljon, különösen gyengébb hardveren, például tableteken vagy kézi számítógépeken...

MA 14:36

A mesterséges tartalom viharában: videósok harca az MI-vel

📹 Fontos kérdés, hogy az MI-videók rohamos fejlődése miként alakítja át a filmes ipart, és milyen gazdasági, etikai, valamint művészi feszültségeket szül a szakmán belül...

MA 14:17

Az olcsóbb OnePlus 15R és az új kütyük rajtja csúszik

🕒 Az OnePlus idén bemutatta a nagy akkumulátorral felszerelt OnePlus 15-öt, ám az olcsóbb OnePlus 15R bemutatása elmaradt...

MA 14:02

Az elveszett Darwin-címjegyzék nyomában: feltárulnak a titkok

A National University of Singapore (NUS) munkatársai egyedülálló dokumentumot tettek közzé: Charles Darwin eddig ismeretlen címjegyzékének teljes szövegét és átiratát...

MA 13:49

Az olcsó MI-oktatás felbőszítette a brit egyetemistákat

Negyvenegy diák, köztük James és Owen, a University of Staffordshire programozási kurzusán vett részt, abban bízva, hogy egy államilag támogatott programnak köszönhetően kiberbiztonsági szakember vagy szoftvermérnök lehet belőlük...

MA 13:03

Az NPM rémálma: 300 modul fertőződött meg órák alatt

💀 November végén újabb súlyos ellátásilánc-támadás rázta meg a JavaScript-fejlesztői közösséget: több mint 300 npm-csomagba jutott be veszélyes kód, amely azonnal lopni kezdte a fejlesztők szenzitív adatait...

MA 12:50

A földönkívüli élet nyomában: mi az igazság?

Kezdetben sokan azt gondolják, hogy az idegen élet keresése csúcstechnológiás űrmissziókat, összeesküvéseket és titkos kormányprogramokat jelent...

MA 12:35

Az ételnyomtatás forradalma: tényleg ez vár ránk a jövőben?

Felmerül a kérdés, hogy mennyiben változtathatja meg a 3D nyomtatás azt, hogyan jutunk ételhez, miként készülnek az ételek, sőt, még azt is, mennyire egészségesen táplálkozunk...

MA 12:18

A különböző bundájú cicatesók titka: genetikai kavalkád a családban

😻 Egy lényeges szempont, hogy a kölykök egy alomban gyakran teljesen különbözőek lehetnek...

MA 12:02

Az afrikai boltokat ellepik a kínai fogyasztói márkák

Felmerül a kérdés, hogy mi áll a hátterében annak, hogy Kína gazdasági jelenléte Afrikában gyökeresen megváltozott az elmúlt években...

MA 11:49

Az elképesztő káosz, amit Musk a Dogecoinnál hagyott maga után

Elon Musk idén áprilisban visszavonult a DOGE nevű kormányzati ügynökség éléről, majd júniusban teljesen kiszállt a vezetésből...