2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

péntek 20:58

Gondban az űripar: kínai kudarcok, bajban a Rocket Lab

🚀 Hihetetlen, de mégis igaz, hogy a múlt hét a rakétaiparban felemás eseményeket hozott: komoly előrelépések mellett látványos kudarcokat is tapasztalhattunk...

péntek 20:39

A mikroműanyag-csapda: ezekből az ételekből eszünk műanyagot

Mára világossá vált, hogy az emberek évente akár több ezer mikroműanyag-szemcsét is elfogyaszthatnak anélkül, hogy észrevennék...

péntek 20:21

A szörny-neutrínó felfedi az ősi fekete lyukak titkát?

🔬 A Földet három évvel ezelőtt különös kozmikus alkotóelem, egy rendkívül nagy energiájú neutrínó találta el, amely egészen a Földközi-tenger mélyére hatolt, és jelet keltett a félig üzemkész KM3NeT neutrínódetektorban Szicília partjainál...

péntek 20:01

Az álomhoz nem kell mindig melatonin: ezek a bevált alternatívák

A melatonin sokak számára az álmatlanság első számú ellenszere, de sokan tapasztalnak kellemetlen mellékhatásokat, például nappali kábultságot vagy fejfájást – főleg, ha túl nagy adagot szednek, vagy túl későn veszik be...

péntek 19:55

Az ősi Marsot félig óceán borította – új képek árulkodnak

A Mars ma poros és kopár, de új kutatások szerint egykor kék bolygóként tündökölhetett...

péntek 19:39

A világegyetem legnagyobb fekete lyukai: a James Webb forradalma

Évtizedeken keresztül rejtély övezte, hogyan keletkeztek az univerzum legnagyobb, legősibb fekete lyukai, amelyek tömegükkel akár több milliárdszorosan is meghaladják a Napot...

péntek 19:19

Az ásványvíz, amiben bízunk, lehet a legnagyobb veszély

Érdemes megvizsgálni, hogyan mérgezhetik a legnépszerűbb ivóvízforrások a mindennapjainkat anélkül, hogy észrevennénk...

péntek 19:02

A halálos arktikus fagy lecsap – de a fák nem robbannak

🥶 Amerika északi régióit egy erős arktikus hidegfront sújtja, amely jelentős lehűlést és tartós téli vihart okoz...

péntek 18:56

Az MI már unja a saját interjúit?

Felmerül a kérdés, hogy mit csináljon egy cég, ha a saját MI-je sorra túlszárnyalja azokat az állásinterjúkat, amelyeket éppen a legjobb fejlesztők kiválasztására dolgozott ki...

péntek 18:19

A valaha talált legteljesebb Homo habilis-csontváz került elő Kenyában

👷 Észak-Kenyában, a Turkana-tó medencéjében megtalált részleges csontváz messze a legteljesebb maradvány, amely valaha előkerült a több mint kétmillió éves Homo habilis fajból...

péntek 18:03

A Lucid Air Touringgal végre teljes a luxusélmény

Az elektromos autópiacot egyre többen próbálják meghódítani, de a fiatal gyártók előtt rengeteg akadály tornyosul...

péntek 17:55

Az új Witcher lehet minden idők legdrágább játéka?

CD Projekt Red következő nagy dobása, a Vaják 4 (The Witcher 4), minden eddiginél nagyobb költségvetéssel készülhet...

péntek 17:37

A mesterséges intelligencia már a hírcímeket is elrontja – a Google kitart

A Google egyre több hírportál cikkeinek címeit cseréli le mesterségesintelligencia-generálta, félrevezető vagy kattintásvadász változatokra...

péntek 17:19

Az ülés nem ellenség: így tarthatod frissen az agyadat

Az ülő életmódot régóta egészségtelennek tartják, de egy friss összefoglaló elemzés 85 kutatás eredményeit áttekintve árnyaltabb képet fest...

péntek 17:02

Az Apple kiakadt: az EU szívatja őket az alkalmazásbolt miatt

😡 Az Apple ismét összetűzésbe került az Európai Bizottsággal egy alternatív alkalmazásbolt bezárása után...

péntek 16:56

A Walmart Apple Pay nélkül: így dühítik a vásárlókat

Fontos kérdés, hogy miért nem lehet 2026-ban sem Apple Pay-jel fizetni a Walmart amerikai üzleteiben...

péntek 16:37

Az európai kriptópiacért újra ringbe száll a Binance Görögországban

Az egyik legismertebb kriptotőzsde, a Binance hivatalosan is lépéseket tett az új európai piacok visszaszerzéséért: bejelentette, hogy Görögországot választja az Unió frissen életbe lépő kriptoeszköz-piaci szabályozása, a MiCA keretrendszer alapján működésének alapjául...

péntek 16:19

Az új Teams azonnal leleplezi a telefonos csalókat

📞 Közeleg egy új biztonsági funkció a Microsoft Teamsben, amely figyelmeztet, ha egy külső hívó ismert márkát próbál utánozni, vagyis márkautánzással próbálkozik...

péntek 16:01

Az aranyláz New Yorkban: a Ledger értéke 1,5-ről 4 milliárdra ugrik

💰 A francia Ledger, amely hardveres kriptotárcáiról ismert, arra készül, hogy idén megjelenjen a New York-i tőzsdén, és akár 4 milliárd dolláros (aktuális árfolyamon közel 1 450 milliárd forintos) értékelést is elérhet...

péntek 15:55

A mesterséges intelligencia kinyírta a curl hibavadász programját

💀 A népszerű curl parancssori segédprogram és könyvtár fejlesztője úgy döntött, január végén leállítja a projekt hivatalos hibavadász programját, miután az MI által generált, értéktelen sérülékenységi jelentések túlterhelték a csapatot...

péntek 15:37

A nappalid új sztárja: a Sennheiser TV-fejhallgató

🎬 A Sennheiser bemutatta legújabb RS 275 TV-fejhallgatóját, amelyet mostantól BTA1 digitális vevővel együtt kínál...

péntek 15:20

Az opciók szabad kezet adnak, tovább izmosodnak a bitcoin ETF-ek

Jelentős változás előtt állnak az amerikai bitcoin- és ether-tőzsdén kereskedett alapok (ETF-ek): a kereskedési opciókra eddig érvényes, 25 ezres szerződéshatárt eltörölték...

péntek 15:01

Az ausztrál föld mélye felfedi a nióbium titkát

🔍 Ausztrália mélyében rejtőző ritka kőzetek segítettek megfejteni, hogyan alakult ki a világ egyik legfontosabb nióbiumforrása, amely kulcsszerepet játszik az acél erősítésében és a tisztaenergia-technológiákban...

péntek 14:57

A legősibb kéznyom: 67 800 éves barlangfestmény Sulawesi szigetén

A világ legrégebbi ismert műalkotását, egy kézsziluettet találtak meg egy indonéziai barlang falán, amelyet mintegy 67 800 évvel ezelőtt készítettek...

péntek 14:37

Az oltás és a rekedtség között nincs bizonyított kapcsolat

Robert F. Kennedy Jr., amerikai politikus és jogász, ismert oltáskritikus, újra vitát kavart, amikor azt állította: a szezonális influenza elleni védőoltás idézhette elő rekedtségét és hangképzési zavarát...

péntek 14:20

Az ősi állkapocs, amely újraírja az emberi evolúció történetét

Egy 2,6 millió éves állkapocscsont felfedezése Etiópiában teljesen átírja az emberi őstörténetről alkotott képet...

péntek 14:02

Az idei téli vihar felkavar mindent: készülj fel időben!

Amerika-szerte mindenki a közelgő téli viharról beszél – akár csoportos beszélgetésekben, akár a boltban vagy a benzinkúton: mindenhol ez a téma...

péntek 13:57

Az új tablettás Wegovy: tényleg ideje eldobni az injekciót?

A Wegovy, a népszerű testsúlycsökkentő gyógyszer már nemcsak injekció formájában, hanem tablettaként is elérhető az Egyesült Államokban...

péntek 13:37

Az új Fortinet-hiba a legfrissebb tűzfalakat is sebezhetővé teszi

🔒 Tűzfalaik újabb támadáshullámáról számolnak be a Fortinet-felhasználók, annak ellenére, hogy az eszközeik a legfrissebb javításokat kapták meg...