2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 20:55

A blokklánc forradalmasítja az amerikai gyáripar hitelezését

📦 Ennek megfelelően egy jelentős, 650 millió dolláros (kb. 235 milliárd forintos) hitelprogram indul az amerikai gyártó- és energetikai szektorban, innovatív digitális pénzügyi megoldásokkal...

MA 20:44

Az FCA engedne: jöhet 10% kripto-ETN a befektetési alapokba?

A brit pénzügyi felügyelet most először engedélyezné, hogy az ország néhány befektetési alapja a vagyonának akár 10%-át kriptoeszközökhöz kapcsolódó tőzsdén kereskedett kötvényekben (crypto ETN) tartsa...

MA 20:34

Vége a bikapiacnak: külön útra lép a Bitcoin és a techrészvények

A kriptovaluták piacán a nyár előtt komoly bizonytalanság uralkodik, miközben a Bitcoin és a technológiai részvények között ritkán látott különbség alakult ki...

MA 20:24

Az ultrawide meglepetés: a Koorui, amire senki sem számított

😍 Érdemes megvizsgálni, hogy a PC-alkatrészek egyre dráguló világában mennyire számít üdítő kivételnek a Koorui 34E6UC, egy pénztárcabarát, 34 hüvelykes, ultrawide monitor...

MA 20:12

Az Artemis III legénysége megvan, jön a tétre menő holdkomp-próba

A NASA hivatalosan is bemutatta az Artemis III négyfős legénységét június 9-én Houstonban, amelynek tagjai 2027 végén egy különleges küldetésre indulnak majd...

MA 20:01

Az Ocarina of Time újjászületik – már idén a Nintendo Switch 2-n

Valóra váltak a pletykák: a legendás A Zelda legendája: Az idő ocarinája (The Legend of Zelda: Ocarina of Time) megújul, és kizárólag Nintendo Switch 2-re, 2026-ban jelenik meg...

MA 19:56

Az RTX 50 Super jön, vele a 12 GB-os RTX 5060?

Nagyjából fél éve hallani pletykákat arról, hogy az Nvidia újabb Super modellekkel bővítené a legújabb RTX-szériát, ám a memóriapiac nyűgjei miatt eddig semmi konkrétum nem derült ki...

MA 19:45

A szlovákiai árok hétezer éves, fej nélküli emberi csontvázakkal sokkolja a régészeket

😮 Egy szlovákiai kőkorszaki település határában régészek egy különös árkot tártak fel, amelyet fej nélküli emberi csontvázak töltöttek meg...

MA 19:34

A Halo-kampány új korszaka: mindent a tündöklő Master Chiefről

👑 A Halo: Combat Evolved ismét visszatér, de most tényleg nagyot újítanak: nemcsak egy sima felújításról van szó, hanem teljes értékű remake készül Halo: Campaign Evolved címmel...

MA 19:23

A toxikus rajongás rombolja Clarkson farmját

😤 Jeremy Clarkson szokásához híven ismét bizonyítja, hogy lelkesedése mellett elképesztően ügyetlen, ha gyakorlati teendőkről van szó – és ez a Clarkson farmja (Clarkson’s Farm) ötödik évadában csak még látványosabbá válik...

MA 19:12

A Blue Origin rakétarobbanása megnehezíti a Holdra visszatérést

Jeff Bezos űripari álmai május 28-án Floridában lángba borultak, amikor a Blue Origin egyik New Glenn rakétája a kilövőálláson hirtelen felrobbant...

MA 19:01

A Montech Ten Wood: illóolajos gépház, amiért megőrül a gamer?

🌲 A Computex 2024 kiállításon az egyik legszokatlanabb hardverújdonság a Montech Ten Wood PC-ház volt, ami nemcsak a szemnek, de az orrnak is újat kínál...

MA 18:45

Az orosz VPN-szigor megoldása: az állami VPN?

A Roskomnadzor, az orosz médiahatóság meghökkentő lépésre készül: egységes, állami VPN-szolgáltatást hozna létre, hogy az ország IT-szakemberei megkerülhessék a rájuk vonatkozó internetes korlátozásokat...

MA 18:34

Az amerikai államhatárt kettészelő három, egymástól merőben eltérő tó a világűrből

A Nevada–Kalifornia határ mentén lenyűgöző képet mutat a világűrből nézve három egymás mellett elterülő, de teljesen eltérő megjelenésű tó: Tahoe, Walker és Mono...

MA 18:23

Az Ethena megnyeri a Janus Henderson támogatását: ENA-befektetés, USDe-terjesztés

💰 Senki sem várta volna, hogy egy hagyományos, 480 milliárd dollár (kb...

MA 17:45

Egy tanulmány szerint az alkohol veszélyei már napi egy italnál fokozódnak

Az alkohol és az egészség kapcsolatáról szóló legfrissebb amerikai kutatás szerint már napi egy ital is érezhetően megnöveli a korai halálozás kockázatát...

MA 17:02

Az Ergonofis Equation: prémium érzetű, ergonomikus és merészen szép irodaszék

💼 Érdekes felvetés, hogy egy irodai szék egyszerre lehet ergonomikus, kényelmes, strapabíró és stílusos...

MA 16:56

A megfejtett Feynman-rejtvény: miért azt az éttermet választod?

🤔 Érdekes felvetés, hogy egy egyszerű ebéd is elindíthat fontos tudományos gondolatokat...

MA 16:44

Az újabb bitcoinrali még nem hoz bikapiaci fordulatot

Az elmúlt napokban a bitcoin ismét magára talált, miután pénteken 60 000 dollár (kb...

MA 16:34

A Google Intelhez fordul: 2028-ra 3 millió chipet rendel

💻 Bár az Intel az utóbbi években komoly nehézségekkel küzdött, újabb megrendelések fordíthatják kedvező irányba a sorsát...

MA 16:23

Az utolsó Destiny 2 frissítés – élő közvetítés a korszak végéről

👻 Kilenc év, nyolc kiegészítő és számtalan frissítés után ma megérkezett a Destiny 2 utolsó, mindent lezáró tartalmi csomagja...

MA 16:01

Az Apple Music csillog, de a fontos funkciók még hiányoznak

Az iPhone-tulajdonosok számára idén izgalmas újdonságokat tartogat az iOS 27 frissítés, amely többek között néhány változást hoz az Apple Music felületén is...

MA 15:46

A Windscribe már készpénzt is elfogad — a leglassabb, legkockázatosabb fizetés

💸 A kanadai Windscribe VPN-szolgáltató újabb szintre emeli az anonim internetezést, ugyanis mostantól készpénzes fizetést is lehetővé tesz az éves előfizetéshez...

MA 15:34

Az Ethereumen indul a cirBTC: a Circle nekimegy a Coinbase-nek

A Circle bemutatta a cirBTC-t, amely teljes mértékben bitcoinfedezetű tokenként jelent meg az Ethereum-hálózaton...

MA 15:01

A valaha volt legrosszabb ebolajárvány jöhet – a világ cserben hagy

😷 2026 júniusának elejére kevesebb mint egy hónap alatt már több mint 569 megerősített Ebola-fertőzöttet regisztráltak Ugandában és a kelet-kongói Ituri tartományban...

MA 14:56

Az Apple Siri-fénygömbje emlékezteti a Google-t és a Microsoftot: a felület számít

💡 Az MI mostanra szinte minden alkalmazásba és operációs rendszerbe beépül, függetlenül attól, hogy erre vágysz-e vagy sem...

MA 14:45

A kiszivárgott Garmin Cirqa kulcsfunkciót nélkülöz – hátrányban a riválisokkal

Sokan várják a Garmin Cirqa érkezését, de a legfrissebb szivárgások alapján korántsem tűnik forradalminak...

MA 14:33

A többaláírásos tárca bukása: 13 milliárd forint egy feltört laptop miatt

💸 A Humanity Protocol 36 millió dollárnak (kb. 13,1 milliárd forint) megfelelő H tokent veszített egy elképesztő biztonsági hiba miatt: egy alkalmazott kompromittált laptopján tárolták a projekt legfontosabb digitális kulcsait...

MA 14:23

A friss bitcoinvásárlás sem lendítette meg az árfolyamot

💸 Érdekes felvetés, hogy a legújabb, nagy arányú bitcoin-vásárlás sem hozott jelentős változást a kriptopiac életébe...