2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 19:24

A százéves rejtély: hová tűnt Nell, az első folyékony hajtóanyagú rakéta?

🚀 1926. március 16-án egy jeges mezőn emelkedett a magasba Robert Goddard úttörő rakétája, amely elsőként használt folyékony hajtóanyagot...

MA 17:56

A szék, ami végre megoldja a félig hordott ruhák gondját

👖 Felmerül a kérdés, mit kezdjen az ember azokkal a ruhákkal, amelyeket már egyszer felvett, de még nem kell kimosni – a padlón való gyűjtésük helyett most felbukkant egy kreatív megoldás...

MA 17:46

A Legyőzhetetlen 4. évada végre berúgja az ajtót

🔥 A világ sorsa forog kockán, amikor elindul a Legyőzhetetlen negyedik évada – Mark Grayson pedig kénytelen végezni egy ártatlan emberrel...

MA 17:23

A jó szándék kevés: az akadálymentesség rejtett csapdái

👁 A digitális világban ma már mindenki hallott arról, mennyire fontos a weboldalak akadálymentessége, mégis a gyakorlatban gyakran hatalmas szakadék tátong a tudatosság és a megvalósítás között...

MA 17:12

A tiltott elmélet, amely átírná a kvantummechanikát

⚠ Már több mint száz éve, hogy a kvantummechanika forradalmasította a fizikát...

MA 17:03

A Wi‑Fi 7 száguld, de alig akad, aki kihasználja

Sokan nem tekintik sürgős feladatnak a router cseréjét, pedig lehet, hogy ezzel jól járnának – főleg azok, akik gyakran küzdenek szakadozó, instabil internettel...

MA 16:56

Az árnyékban burjánzó MI: súlyos következményei lehetnek, ha nem figyelsz

🕴 A vállalatoknál egyre több digitális eszköz és alkalmazás épül be a mindennapi működésbe, így ma már szinte minden dolgozó használ valamilyen MI-alapú megoldást...

MA 16:45

Az óceán elveszett hangja: előkerült a valaha rögzített első bálnadal

Egy különleges, 1949-ben rögzített bálnadal került elő, amely minden eddiginél mélyebb bepillantást enged ezeknek az óriási állatoknak a kommunikációjába...

MA 16:24

Az új Bitcoin-láz: már a 75 ezer dollárt ostromolja

A hét elején újabb lendületet kapott a kriptopiac: a bitcoin árfolyama újra megközelítette a 75 000 dolláros (kb...

MA 14:03

Az iPhone-od lesz a jogosítványod? Itt a nagy áttörés!

Például reggel elindulsz dolgozni, az iPhone-od a zsebedben, de otthon hagyhatod a vastag pénztárcádat – már a jogosítványodat sem kell vinned...

MA 13:56

A Google most letiltotta az egyik legnépszerűbb Chrome-bővítményt

🚫 Érdekes fejlemény, hogy a Save as Image Type bővítmény, amely sokaknak megkönnyítette a képek mentését különböző formátumokban, váratlanul eltűnt a Chrome-ból...

MA 13:45

Az amerikai tőzsdefelügyelet elállt a BitClout-alapító elleni pertől

A New York-i déli kerületi szövetségi bíróságon március 12-én végleg lezárták az amerikai tőzsdefelügyelet (SEC) polgári eljárását, amelyben Nader Al-Najit, a BitClout és a DeSo blokkláncplatformok létrehozóját vádolták meg...

MA 13:35

Az atomi frusztráció forradalmasíthatja a kvantumfizikát

⚡ A Kaliforniai Egyetem kutatói egy egészen különleges kvantumállapot létrejöttére bukkantak, amikor egy kristály atomi szerkezetében kétféle, egymással versengő frusztráció – mágneses és kötési – egyidejűleg jelenik meg...

MA 13:23

Az új csodadallam tényleg 24 perc alatt elűzi a szorongást?

🎵 Egy friss klinikai vizsgálat szerint már 24 percnyi, speciálisan megtervezett zenehallgatás is jelentősen enyhítheti a szorongás tüneteit...

MA 12:04

Az elavult rendszerektől a Cloudflare One-ig: Leáldozott az egylépéses átállások korának

A hálózati rendszermérnökök számára kevés dolog stresszesebb, mint amikor egy hétvége alatt kell átalakítani egy teljes infrastruktúrát, különösen, ha ez egy 30 ezres cégnél, több mint 1000 elavult alkalmazás új rendszerre való átkapcsolását jelenti...

MA 11:56

A káosznak vége: mobilon is rendezheted Spotify-listáidat

📷 Egy lényeges újdonság, hogy a Spotify mobilos alkalmazása hamarosan olyan funkcióval bővülhet, amelyre a felhasználók már 15 éve várnak: a lejátszási listák mappáinak kezelése közvetlenül telefonról is elérhető lesz...

MA 11:46

A műanyag fogságában élünk: a műanyag-detox döbbenetes igazsága

Egy átlagos nap szinte minden perce műanyaghoz köt: műanyag palackból isszuk a vizet, műanyag flakonból nyomjuk a tusfürdőt, műszálas ruhát viselünk, műanyag kiegészítőkkel körülvéve indulunk munkába...

MA 11:36

Az MI-háború tétje: veszélyben a felhasználók biztonsága?

A közösségi médiaóriások, köztük a TikTok és a Meta (a Facebook és az Instagram anyavállalata) az utóbbi években a felhasználók figyelméért vívott algoritmikus verseny során kérdéses döntéseket hoztak, amelyek lehetővé tették káros tartalmak nagyobb arányú megjelenését a felhasználói hírfolyamokban...

MA 11:24

Az új Galaxy S26 sem húzza ki a Samsungot a válságból

A Samsung történetének egyik legsikeresebb előrendelési hullámát könyvelheti el a Galaxy S26-sorozattal, de a vállalat mobilüzletága mégis vészhelyzeti üzemmódban működik...

MA 11:12

Az új Samsung Wide Fold: dupla élmény vagy dupla csalódás?

A Samsung idén nagyot villant: ha minden igaz, érkezik a Wide Fold – a pletykák szerint ez lesz a válasz a feltörekvő iPhone Foldra...

MA 11:02

Az új Galaxy S26 Ultra kijelzője váratlanul gyenge lett

😥 A Samsung Galaxy S26 Ultra legfrissebb bejelentése nagy port kavart a vadonatúj, adatvédelmi célú kijelzőinnovációval, amely a betekintési szögeket szabályozza az extra adatvédelemért...

MA 10:57

Az új rákdetektor másodpercek alatt leleplezi a daganatokat

Egy forradalmian új, „világító” antitest fejlesztésével a kutatók képessé válhatnak arra, hogy a daganatos betegségek kimutatása egyszerűbbé, gyorsabbá és pontosabbá váljon...

MA 10:51

Itt a nagy áttörés: napfényből üzemanyagot termelő anyagok

🔥 A napenergiából származó üzemanyag vagy vegyi anyag előállítása régóta foglalkoztatja a tudományos világot...

MA 10:43

Az ausztrál szenátus rákapcsol: jön a kemény kriptószabályozás

💰 Végre történik valami nagyon is húsbavágó Ausztráliában: a szenátusi bizottság rábólintott egy olyan törvényjavaslatra, amely a kriptoplatformokat és letétkezelő cégeket simán beemeli az ország pénzügyi szolgáltatási rendszerébe...

MA 10:36

Az XRP áttörte az ellenállást: indul az újabb rali?

Az XRP árfolyama rövid idő alatt 3%-kal nőtt, túllépte az 545 Ft-os (1,47 USD) szintet, miután áttörte a hosszú ideje fennálló ellenállást...

MA 10:29

Az Apple csendes forradalma: így vitt mindent a többiek orra elől

Úgy tűnik, hogy az elmúlt években kialakult MI-őrületben minden nagyvállalat óriási összegeket költött adatközpontokra, egyvalaki azonban a partvonalról figyelte ezt az őrült költekezést: az Apple...

MA 10:22

Az Egyesült Királyság nagy dobása: ezermilliárdok az atomfúziós áttörésre

Az Egyesült Királyság közel 1000 milliárd forinttal támogatja a következő öt évben a fúziós energiát, egy merész terv keretében, amelynek célja, hogy az ország globális éllovassá váljon ezen az áttörést ígérő területen...

MA 10:10

Az MI-pánik már öl: tényleg veszélyben vagyunk?

⚠ A kanadai Tumbler Ridge-i iskolai lövöldözés előtt egy 18 éves diáklány, Jesse Van Rootselaar beszélgetéseket folytatott a ChatGPT-vel magányosságáról és erősödő erőszakfantáziáiról...

MA 09:51

Az MI tényleg felszabadítja a kreativitásunkat?

Fontos kérdés, hogy az MI valóban helyettesíteni akarja-e az embert, vagy éppen ellenkezőleg: új módon segíthet minket...