MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 17:50

Az üstökös, amely véget vethetett a mamutok korának?

🚀 Egy lényeges felvetés, hogy 13 000 évvel ezelőtt egy üstökös robbanása pusztítást hozhatott Észak-Amerikára, ami drámai változásokat idézett elő az állatvilágban és az ősi emberi kultúrában...

MA 17:17

A Samsung Freestyle+ még sosem volt ilyen fényes és okos

💡 A Samsung felturbózta népszerű Freestyle hordozható projektorát: a Freestyle+ a korábbi verzió fényerejének kétszeresét, 430 ISO lumen fényerőt kínál...

MA 16:52

A 2026-os játékforradalom: brutális árrobbanás, abszurd fordulatok

🎮 Ebből következően érdemes megérteni, hogy a videojáték-ipar jövője egészen vad irányba halad a következő években...

MA 16:33

A parányi ideg, amely örök fiatalságot ad a szívnek

💚 Egy rejtett ideg, amely az agyat és a szívet köti össze, kulcsfontosságú lehet abban, hogy a szív tovább maradjon fiatalos...

MA 16:20

Az oltott dán nők szinte teljesen megszabadultak a legveszélyesebb HPV-típusoktól

😊 Több mint másfél évtizede zajlik Dániában a humán papillomavírus (HPV) elleni vakcinációs program, amelynek hosszú távú hatását most először sikerült részletesen vizsgálni...

MA 15:50

Az eltűnt bolygó titka: ütközés törölte a térképről?

Az elmúlt évtizedekben a NASA Hubble űrteleszkópja különös fényforrásokat figyelt meg a Fomalhaut csillag körül, alig 25 fényévre a Földtől...

MA 15:35

Az ifjú csillag kettős arcát tárja fel

A V1180 Cassiopeiae nevű fiatal csillag hosszú távú megfigyelése alaposan felbolygatta a csillagászok elképzeléseit a csillagok kialakulásáról...

MA 15:17

Az MI a hangra épít – jön a háború a kijelzők ellen?

Az OpenAI komolyan veszi a hangalapú MI fejlesztését: az elmúlt két hónapban több mérnöki, kutatási és termékfejlesztő csapatot szervezett át, hogy forradalmasítsa hangmodelleit...

MA 15:01

A kiválasztottaknak jár egy hónap ingyen ChatGPT Plus az OpenAI-tól

🎉 Ha már előfizettél a ChatGPT Plus-ra, ami havonta 7400 forintba (20 USD) kerül, most meglepetés érhet: lemondási szándék esetén az OpenAI automatikusan felajánlhat egy hónap ingyenes használatot...

MA 14:33

Az ausztrál nyugdíóriás kihátrál az MI-lázból

Ausztrália legnagyobb nyugdíjalapja, az AustralianSuper radikális döntésre készül: csökkenti globális részvénybefektetéseit, mivel az MI-láz a tengerentúlon egyre kockázatosabbnak tűnik...

MA 14:17

Az év első szuperholdja: farkasüvöltés és Jupiter-randevú

2026 első teliholdja, a Farkas Hold január 3-án ragyog majd fel, amikor a Föld épp a legközelebb jár a Naphoz...

MA 14:03

Az anonimitás végnapjai: a korhatár-ellenőrzés átírja az internetet

2025-re az amerikai lakosság fele már kénytelen igazolni a korát, ha bizonyos internetes tartalmakhoz szeretne hozzáférni...

MA 13:33

Az űrzsúfoltságra a Starlink válasza: lejjebb viszi a műholdakat

A Starlink idén mintegy 4400 műholdját bocsátja alacsonyabb pályára, hogy csökkentse az ütközés kockázatát...

MA 13:18

Afrika ősi kultúrájának sötét titka: a legkorábbi ismert kremáció

Mintegy 9500 évvel ezelőtt egy közösség Közép-Afrikában, a Malawi északi részén található Mount Hora lábánál egy apró termetű nőt hamvasztott el egy nyílt máglyán...

MA 12:51

A 2026-os anime-szenzációk: ezekre vár minden rajongó

📷 Érdemes megérteni, hogy az új év nemcsak ígéretes animepremiereket tartogat, hanem a műfaj sokszínűségére is rávilágít...

MA 12:34

A ChatGPT mesterfogásai: így hozd ki belőle a maximumot

💡 Első pillantásra úgy tűnt, hogy a ChatGPT csak egy újabb okos csevegőmotor lesz, de mára az MI világa átalakult, és a lehetőségek sokrétűbbek, mint valaha...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 1/2

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Guitar Chord Analyzer: FABULUS (iPhone/iPad)A Fabulus egy korszerű, interaktív alkalmazás, amely a gitárosok számára nyújt értékes segítséget az akkordok azonosításában...

MA 06:05

Történelmi események a mai napon (Január 2.)

Mi minden történt ma a történelemben? A Rajna befagyott átkelésétől és George Washington győztes visszaverésétől kezdve a Duquesne-kémgyűrű leleplezésén át Nixon 55 MPH (88,5 km/h) sebességhatáráig sok fordulópont alakította a világot...

csütörtök 11:50

Az MI-alapú játéktutorialok rémálma: a Sony új szintre lép

🤓 A videojátékok tutorialjai régóta okoznak fejfájást a játékosoknak és fejlesztőknek egyaránt...