2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

péntek 21:56

A rejtett IT-hibák csendben mérgezik a munkahelyeket

👀 A nagyvállalati IT-hibákat gyakran szinte lehetetlen észrevenni – legalábbis addig, amíg az egész rendszer össze nem omlik...

péntek 21:45

A szállítmánylopás sosem volt ekkora – figyelmeztet az FBI

2025-ben az Egyesült Államokban és Kanadában 264 milliárd forint (kb. 725 millió USD) értékben tűnt el áru – és az elkövetők egyre rafináltabb módszerekkel dolgoznak...

péntek 21:23

A szimulátorőrület májusban letarolja a cozy játékokat

💻 Májusban igazi szimulátorözön várható a cozy játékok világában, ráadásul minden típusból akad újdonság: életszimulátorok, boltvezetős szimkék és egészen extrém menedzsmentjátékok is indulnak...

péntek 21:12

Az első MI-cég betör a kriptópiacra Amerikában

Az Egyesült Államokban először fordult elő, hogy egy mesterséges intelligencia önállóan céget alapított, megszerezte a tevékenységhez szükséges hivatalos iratokat, és már az első kriptovaluta-kereskedésére is készül...

péntek 20:56

A techóriások szárnyalása hajtja az újabb bitcoin-rallit

🚀 A bitcoin az utóbbi napokban ismét emelkedett, és elérte a 77 400 dolláros, vagyis közel 28 millió forintos szintet...

péntek 20:44

Az alumínium átírja az ipart: jön a ritkafémek utáni korszak?

A King’s College London kutatócsapata egy egészen új alumíniumformára bukkant, amely olcsóbb és fenntarthatóbb alternatívája lehet a jelenleg használt, drága és ritka fémeknek...

péntek 20:34

A QR-kódos csalások sosem voltak ilyen veszélyesek

Az utóbbi időszakban drámai mértékben, 146%-kal nőtt a QR-kódos adathalász támadások száma, miközben más, korábban elterjedt módszerek háttérbe szorultak...

péntek 20:22

A Pink Floydról elnevezett új pók a házfalakon portyázik

A Dél-Amerikában dolgozó kutatók egy új repedéslakó pókfajt fedeztek fel, amely a Pikelinia floydmuraria nevet kapta – ezzel egyszerre a Pink Floyd zenekar előtt tisztelegnek és a pók jellegzetes lakóhelyére utalnak...

péntek 20:12

A Division: Újjászületés mostantól PC-n is ingyen játszható

Jó példa erre, hogy az okostelefonokon már ismert A Division: Újjászületés (The Division Resurgence) mostantól számítógépen is kipróbálható, még a hivatalos augusztusi rajt előtt...

péntek 19:56

Az újabb 80 ezres rekord küszöbén billeg a Bitcoin

💰 A Bitcoin árfolyama közel 3%-ot emelkedett az elmúlt 24 órában, elérve a 78 700 dollárt (kb...

péntek 19:45

A városi madarak inkább a férfiakat tűrik a közelükben

🐒 A nagyvárosokban élő madarak viselkedése meglepő mintázatot mutat: úgy tűnik, a városi madarak közelebb engedik magukhoz a férfiakat, mint a nőket...

péntek 19:22

Az intézményi tőke felpörgeti a bitcoin piacát: 16 billió dollárig nőhet

📈 A bitcoin értéke robbanásszerű növekedés előtt áll a következő években: 2030-ra 16 billió dollárra (mintegy 5760 billió forintra) ugorhat a kriptodeviza piaci kapitalizációja, jósolja az Ark Invest friss jelentése...

péntek 19:11

Az izomnöveléshez nem kell meghalni az edzésen

Sokan azt gondolják, csak kemény, fájdalmas edzésekkel lehet erősebbé válni, de egy friss kutatás szerint ez tévhit...

péntek 19:01

Az oxfordi fizikusok áttörték a kvantumhatárokat: itt a quad‑squeezing

A kvantumvilág titkai újabb rétege tárult fel az Oxfordi Egyetemen, ahol fizikusok először valósították meg az úgynevezett quadsqueezinget, vagyis a négyrendű „összenyomást”...

péntek 18:56

A feltámadt kínai képcsöves tévék titka

📺 Bár sokak számára a katódsugárcsöves (CRT) tévék már csak a retro videojátékok vagy klasszikus sci-fi filmek kellékei, Kínában most meglepően olcsón kínálnak pár frissnek tűnő példányt...

péntek 18:45

Végre megérkezett az Xbox-mód Windows 11-re

🎮 Végre valóra vált a PC-s játékosok álma: Windows 11-en, asztali gépeken is elérhetővé vált az Xbox mód...

péntek 18:34

Az ősi, csavart állkapocs rejtélye – Tanyka nyomában

🦖 Dél-Amerika mélyén, Brazília Amazonas menti erdeiben, egy kiszáradt folyómeder alatt paleontológusok rendhagyó fosszíliára bukkantak: egy mintegy 275 millió éves állkapocscsontra, amely semelyik ma élő állathoz sem hasonlítható...

péntek 18:23

A ROG Ally X MI-varázsa: profi felskálázás csak dokkolva

A hordozható játék-PC-k között a ROG Ally X most új szintre lép: az eddig elérhető AMD FSR felskálázás mellett már a Microsoft új, mesterséges intelligenciával (MI) támogatott Auto SR megoldását is használhatják a felhasználók – igaz, egyelőre kizárólag dokkolt üzemmódban...

péntek 16:01

Az Apple figyelmeztet: a memóriaválság megdobhatja a Mac-árakat

💸 Az Apple vezérigazgatója, Tim Cook egyre komolyabb memóriaválságot prognosztizál, amely már idén júniustól jelentősen megdobhatja a vállalat költségeit...

péntek 15:56

Az OpenAI-per tétje: Musk szerint az MI végzetes lehet

💥 A bíróság falai között csapott össze a techvilág két nagyágyúja: Elon Musk és Sam Altman között váratlanul heves vita robbant ki arról, hogy valóban létünk végéhez vezethet-e a mesterséges intelligencia fejlődése...

péntek 15:34

Az MI igazi áttörései a tudományban: mire számíthatnak a kutatók?

Felmerül a kérdés, hogy vajon létezik-e már olyan MI-eszköz, amelyben valóban megbízhatnak a kutatók, és amely nemcsak gyorsabbá, hanem megbízhatóbbá is teszi a munkájukat...

péntek 15:24

Az asztrológia lebukott: mégsem hat a szerelemre?

👁 Az asztrológia már az ókor óta meghatározó szerepet játszik sok civilizációban, és napjainkban is óriási üzletté nőtte ki magát, amelynek értéke 2025-re már elérte a több száz milliárd forintot...

péntek 15:12

Az európai Microsoft-csoda nyomában: szuverenitás, adatközpontok, dicsekvés

🌍 A Microsoft Európában komolyan ráfeküdt az adatkezelésre, és nem aprózza el: az elmúlt évben például Portugáliában több mint 3 500 milliárd forintot, Norvégiában 2 170 milliárdot, az Egyesült Királyságban pedig 10 500 milliárd forintot fordított új adatközpontokra...

péntek 15:01

Az MI-háború nagy fordulata: Nem ChatGPT vagy Claude a legokosabb?

Az MI-chatbotok között élesedő verseny újabb meglepetést tartogat: habár egyre többen pártolnak át a ChatGPT-től a Claude-hoz, a friss elemzések szerint egyikük sem mondhatja magát a legokosabb ingyenes MI-nek...

péntek 14:56

A villámgyors kontroller – GameSir G7 Pro 8K teszt, humorral

⚡ Kezdődhet a kontrollerfesztivál: a GameSir G7 Pro 8K Aimlabs Edition messze nem csak egy szokványos játékszer...

péntek 14:46

Az OLED végre tömegeknek szól: berobban az Alienware AW2726DM

💡 Az utóbbi időben az OLED monitorok ára igencsak elrugaszkodott a valóságtól, de most ugrásszerűen megváltozott a helyzet...

péntek 14:33

Az SBI Holdings új kriptotőzsdére csapna le Japánban

💰 A Tokióban működő pénzügyi óriás, az SBI Holdings újabb nagy lépésre készül a digitális eszközök világában...

péntek 14:23

Az EA új pénzcsapdája: már előrendelhető a Battlefield 6 battle pass

A Battlefield 6 népszerűsége gyorsan felszökött a rajt után, ám a lendület csak rövid ideig tartott...

péntek 13:56

Az MI árnyékában: Mit osztanak meg a dolgozók valójában?

A brit cégek kétharmada bevallja, fogalma sincs arról, hogy alkalmazottaik milyen adatokat osztanak meg azokon az MI-platformokon, amelyeket hivatalosan engedélyeztek...