2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 10:36

Az ősi kór nyomában: egy elfeledett város pusztulása

Másfél évezreddel ezelőtt rejtélyes betegséghullám sújtotta a mai Jordánia területén álló Jerash városát...

MA 10:30

A brit humorú zombiszimulátor, ahol a kenyér is penészes

🧅 Jellemző példa erre, hogy ha azt gondolnánk, egy istenjáték békés falusi idillje csak gombaszedésből és szendvicsgyártásból áll, a Masters of Albion ezt alaposan megcáfolja...

MA 10:23

Az új pénzcsap: a Morgan Stanley rárepül a stabilcoinokra

💰 A pénzügyi világ óriása, a Morgan Stanley egyre markánsabban veti meg a lábát a digitális eszközök piacán...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/24

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Milky Way: Cosmic Playground (iPhone/iPad)A Milky Way egy kivételes, fizika alapú űrszimulátor, amely az univerzum felfedezésének élményét kínálja...

MA 08:43

Az Assassin’s Creed Black Flag remake mindent felkavar – jó ötlet?

🏹 Az Assassin’s Creed-széria egyik legnépszerűbb darabja, a Black Flag idén nyáron tér vissza, ráadásul teljesen újjáépítve...

MA 08:36

Az iráni háború és a japán infláció megfékezi a Bitcoin raliját

💸 A héten megtorpant a Bitcoin erőteljes menetelése, ahogyan a globális kriptopiacokat a japán infláció emelkedése és az Irán északi részén dúló konfliktus okozta feszültségek sújtják...

MA 08:29

Az ETF-láz hajtja a Bitcoint – de ki adja el?

Az elmúlt nyolc napban újra élénk mozgolódás indult a kriptopiacon, amikor amerikai bitcoin tőzsdén kereskedett alapok (ETF-ek) rekordösszegű, mintegy 2,1 milliárd dolláros (kb...

MA 08:23

A Stan Sport bárhonnan: így vered át a korlátozásokat

Érdemes megvizsgálni, mit kínál az ausztrál Stan Sport, és hogyan élvezheted a legizgalmasabb sportközvetítéseket akár külföldről is...

MA 08:08

A mai NYT Strandsban minden az ordítozásról szól

😳 A mai NYT Strands kihívásában (782. játék) igazi zajos szógyűjtemény vár: minden szó az üvöltés, kiabálás, hangzavar témájához kapcsolódik...

MA 08:01

A túlélés ára: egy fejlesztő negyven napja a vadonban

🌳 Negyven nap magányos küzdelem a vadonban – ennél hitelesebb túlélőjáték talán nem is létezhet...

MA 07:57

Az Xbox rákapcsol: a PC-s játékosok a célkeresztben

Az Xbox hosszú ideje próbálja megerősíteni pozícióját mind a konzol-, mind a PC-s játékpiacon, de a legfrissebb fejlemények azt mutatják, hogy a Microsoft végre felismerte: komoly kihívásokkal néz szembe...

MA 07:50

Az Aave és társai mentőakciót indítanak a KelpDAO-hack után

Több vezető kriptós szereplő egyeztetnek, hogy helyreállítsák a decentralizált pénzügyi piacokat, miután idén minden eddiginél nagyobb kriptovaluta-lopás rázta meg az iparágat...

MA 07:43

Az amerikai elitkommandós lebukott titkos tőzsdei ügyleteivel

Az Egyesült Államok egyik különleges erőinél szolgáló altisztjét letartóztatták, mert titkos katonai műveletről származó belső információkat használt fel, hogy óriási összegeket nyerjen egy népszerű kriptotőzsdei fogadási platformon...

MA 07:36

Az első génterápia áttöri az örökletes süketség falát

🔉 Az amerikai élelmiszer- és gyógyszerhatóság most először engedélyezett génterápiát örökletes süketség kezelésére...

MA 07:29

Az OpenAI visszahódítja a trónt: megérkezett a GPT-5.5

👑 Érdemes megvizsgálni, hogy az OpenAI bemutatta a legújabb nagy nyelvi modelljét, amely GPT-5...

MA 07:23

Az új Fél férfi sorozatot ingyen nézheted – mutatjuk, hogyan

🍿 A Fél férfi (Half Man) nemcsak a következő év egyik legjobban várt sorozata, de máris óriási visszhangot váltott ki...

MA 07:17

A Holdra gitár kell: Chris Hadfield az Artemis II-ről és űrzenéről

🌙 Az űrrepülés több mint technika és tudomány: az emberi lélek is nagyobb utat tesz meg odafent, mint a rakéta bármelyik fokozata...

MA 07:09

A dínók korának tengereit az óriáspolipok uralták

Közelről megvizsgált, 27 fosszilis polipállkapocs forradalmasítja a tengeri ragadozók képét: a kréta kori csúcsragadozók között nemcsak gerinceseket, hanem hatalmas, uszonyos polipokat is találunk...

MA 07:01

Az HBO váratlan húzása: két hétig dupla Trükkök-epizódok

🎬 Alig futott be a Trükkök (Hacks) ötödik évadának harmadik része, máris nagy változásra készülhetnek a sorozat rajongói...

MA 06:57

Az Aave-válság, ami két nap alatt felforgatta a DeFi-t

A decentralizált pénzügyek (DeFi) világa soha nem volt még ennyire törékeny, mint az elmúlt hétvégén...

MA 06:50

A mai NYT Connections: csoportok, megoldások és a legjobb trükkök

📝 Érdemes megvizsgálni, hogy a Connections nevű szókirakó játék ma is bőséges kihívást tartogatott: a játék lényege, hogy tizenhat szóból logikai csoportokat hozz össze – mindegyik négyes más-más vezérfonalat követ...

MA 06:43

Az Anthropic bakija miatt butább lett a Claude mesterséges intelligenciája

Az elmúlt hetekben fejlesztők és MI‑nagyágyúk egyre többen panaszkodtak arra, hogy az Anthropic zászlóshajója, a Claude, elvesztette éleslátását...

MA 06:36

Az ördögi Quordle: Tényleg mindenkit megizzaszt?

Az utóbbi napokban ismerős stressz nehezedett a Quordle-rajongókra, amikor a mai, 1551...

MA 06:32

Az ördög visszatér Pradában – Bezosékra vadásznak

😈 Ilyen eset például, amikor egy szatirikus film nemcsak a divatvilág hangadóit, de a világ leggazdagabb párját is pellengérre állítja...

MA 06:22

A decentralizáció próbatétele: az Arbitrum befagyasztotta a 26 milliárd forintnyi ETH-t

⚠️ Az Arbitrum gyors beavatkozása miatt több mint 30 000 ETH, vagyis mintegy 26 milliárd forintnyi digitális eszköz került zárolásra, miután a KelpDAO elleni támadás során ellopták őket...

MA 06:05

Történelmi események a mai napon (Április 24.)

Ez a nap a történelemben a mítoszok és fordulópontok sűrűje: Trója eleste, az ír Húsvéti felkelés, egy pusztító londoni robbantás és XVI...

csütörtök 21:35

Az új DeFi-botrány tovább tépázza az intézményi bizalmat

A decentralizált pénzügyi rendszereket (DeFi) újabb hatalmas támadás rázta meg: a KelpDAO esetében néhány nap alatt mintegy 20 milliárd dollárnyi (kb...

csütörtök 21:23

Az újabb Vercel-adatlopás több fiókot is érint

Ez a jelenség jól illusztrálható azzal, hogy a Vercel fejlesztői platform adatvédelmi incidense jóval súlyosabbnak bizonyult a kezdeti becsléseknél...

csütörtök 21:12

Az első agyi párbeszéd: mesterséges és valódi idegsejtek összekapcsolódnak

Egészen új korszak nyílhat az agyi technológiákban és az MI-számítógépekben, miután mérnököknek sikerült mesterséges idegsejteket kifejleszteniük, amelyek képesek kommunikálni valódi agysejtekkel...