MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 20:50

Az exo-Földek lefotózásának legnagyobb ígérete

🛰 2025. december 4. A csillagászok most fedeztek fel egy barna törpét, amely segíthet annak a technológiának a tesztelésében, amellyel egyszer talán Föld-szerű exobolygókról is készíthetünk felvételeket...

MA 20:34

A Google nagy dobása: színre lép a Replit az MI-ben

🚀 A Google Cloud több évre szóló megállapodást kötött a Replit nevű MI-alapú kódolóplatformmal, amely egyre nagyobb népszerűségnek örvend a „vibe-kódolás” területén...

MA 20:19

Az NPU-k titkai: Miért nem okosabb még a telefonod MI-je?

A modern okostelefonok reklámjai előszeretettel hirdetik az új NPU-k (neurális feldolgozó egységek) szédítő teljesítménynövekedését, de a legtöbb felhasználó mégsem érzékeli az áttörést a mindennapi MI-funkciókban...

MA 20:01

Az iOS 26-tal az utazás végre gyerekjáték

🛸 Az iOS 26 frissítésével számos nagy újítás és rendszerátalakítás jelent meg, de rengeteg olyan finomhangolt funkció is bekerült, amely felett sokan átsiklottak...

MA 19:34

Az Instagram-féltékenység egyre több fiatal párt tesz tönkre

💔 A közösségi média már szerves része lett a párkapcsolatoknak, hiszen sokan ott ismerkednek, tartják a kapcsolatot, vagy éppen osztják meg a legfontosabb pillanatokat...

MA 19:17

Az új LEGO SLS rakéta: indítsd el a nappalidban!

A LEGO újabb különlegességgel jelentkezik a Technic sorozatban: 2026. január 1-jén érkezik a NASA Artemis Space Launch System (SLS) rakétájának részletes modellje, amelyet a NASA-val és az Európai Űrügynökséggel (ESA) közösen fejlesztettek...

MA 19:01

Az óvatlan React- és Next.js-szerverek szabad prédák a támadóknak

🕵 Egy súlyos sérülékenység, a React2Shell, kritikus veszélyt jelent a React és Next...

MA 18:50

Az MI-ügynökök csodája elmarad: a Microsoft lehűti a várakozásokat

🛠 Figyelemre méltó, hogy a Microsoft a legutóbbi pénzügyi év végén kénytelen volt jelentősen csökkenteni MI-ügynökei értékesítési növekedési céljait, miután az értékesítők többsége alulmaradt a kitűzött kvóták teljesítésében...

MA 18:34

A napi 3–4 kávé lassíthatja az öregedést mentális zavarok esetén?

☕ Napi három-négy csésze kávé lassíthatja a biológiai öregedés folyamatát azoknál, akik súlyosabb mentális betegséggel élnek...

MA 18:18

Az Atlanti-áramlat leállása évszázados aszályt zúdíthat Európára

Több friss kutatás szerint Európa éghajlata katasztrofális mértékben száradhat ki, ha összeomlik a létfontosságú Atlanti-óceáni áramlás, az AMOC...

MA 18:02

Az új NASA-vezér nagy dobásra készül a Holdért folyó versenyben

🚀 Egy lényeges szempont, hogy a NASA élére készülő Jared Isaacman sorsa és elképzelései a világűr-kutatás következő évtizedeit határozhatják meg...

MA 17:49

Az adatlopási lavina új áldozata: a Freedom Mobile

Kanada negyedik legnagyobb mobilszolgáltatója, a Freedom Mobile elismerte, hogy illetéktelenek hozzáfértek az ügyfélfiókok kezelésére szolgáló platformhoz, és személyes adatokat loptak el ismeretlen számú ügyféltől...

MA 17:34

Az iPhone 17 Pro elbukta a legjobb éjszakai fotós trükkjét

Bár az iPhone 17 Pro több ponton fejlődött elődjéhez képest, meglepő módon eltűnt egy igazán kedvelt kamerafunkció is...

MA 17:18

Az ősi függőkoporsók rejtélye: köztünk élnek a leszármazottak

Évezredeken át tartó rejtély oldódott meg Kína és Délkelet-Ázsia legendás függőkoporsós temetkezési szokásával kapcsolatban...

MA 17:02

Az MI tarol a memóriapiacon: a Crucial lehúzza a rolót

Külön említést érdemel, hogy a Micron bejelentette: megszünteti a Crucial néven ismert, ikonikus lakossági memóriatermékek gyártását...

MA 16:49

Az optikai áttörés újrarajzolja a világegyetem térképét

👀 Egy váratlan fejlesztés a távcsövek tükrök vezérlésében jelentős áttörést ígér a világegyetem tanulmányozásában...

MA 16:34

Az új szilícium-völgyi cowboy felforgatja a géntechnológiát

Sterling Anderson: A GM új lendülete A General Motors (GM) történetében új korszak kezdődött, amikor Sterling Anderson lett a vállalat új termékfejlesztési igazgatója...

MA 16:17

A Proton Sheets megérkezett: végre titkosított táblázatok mindenkinek

🔒 A Proton legújabb fejlesztése, a Proton Sheets, fontos lépés a vállalat termelékenységi csomagjában...

MA 16:01

Az anacondák titka: hogyan maradtak óriások 12 millió évig

Egy lényeges szempont, hogy az anacondák már a megjelenésük után rekordméreteket értek el Dél-Amerikában, és elképesztő stabilitással tartották is ezt a méretet több mint 12 millió éven át...