MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

péntek 20:49

Az LG leleplezte a jövő háztartási robotját

🤖 Az LG vadonatúj humanoid robotot mutat be a következő CES kiállításon Las Vegasban...

péntek 20:33

Az MI 2025-ben felforgatta a munka világát – új korszak jött

A 2025-ös év munkafronton minden eddiginél nagyobb fordulatot hozott az MI-nek köszönhetően...

péntek 20:18

Az MI-forradalom átírja a globális ellátási láncok szabályait

Egy lényeges szempont, hogy az ellátási láncok a világ gazdaságának gerincét adják: ezek a rendszerek juttatják el a termékeket és szolgáltatásokat a kiindulóponttól a vásárlóig, miközben növelik a hatékonyságot és csökkentik a költségeket...

péntek 20:02

Az extra C-vitamin csodát tesz a bőröddel

🍌 A legújabb kutatás szerint a bőr állapota közvetlenül függ attól, mennyi C-vitamint fogyasztasz...

péntek 19:51

A valaha látott leghosszabb gammakitörés titkai lelepleződnek

👀 2025. július 2-án a világ kutatói egy rendkívüli esemény szemtanúi lettek: minden eddiginél hosszabb ideig tartó gamma-kitörést, a GRB 250702B-t észleltek, amely több mint hét órán át tartott...

péntek 19:32

A MI zabálja a memóriát: közeleg az okostelefon-válság

A globális okostelefon- és PC-piac jelentős visszaesést szenvedhet el 2026-ban, mert a memóriagyártók egyre inkább az MI-adatközpontokat részesítik előnyben, így kevesebb memóriát gyártanak a fogyasztói eszközökhöz...

péntek 19:17

Az új Gmail-cím végre megérkezett – vagy mégsem?

Sokan szenvednek fiatal kori Gmail-címüktől, amelytől akár évek óta próbálnak megszabadulni...

péntek 19:02

Az ultrafényes fekete lyuk orkánt szabadít el a galaxisban

🛰 A világegyetem egyik legizgalmasabb égi eseményét figyelték meg kutatók: a NGC 3783 spirálgalaxis közepén lakó fekete lyuk soha nem látott, fényes kitörést produkált...

péntek 18:49

Az árát megfizetjük, ha a Nyugat kihátrál az elektromobilitásból

A nyugati autógyártók visszavonulót fújnak az elektromos autók fejlesztésének terén, miközben a kínai riválisok egyre nagyobb teret nyernek az elektromos autók piacán...

péntek 18:34

A SpaceX tőzsdére lép – felforgatja az űrversenyt?

🚀 Elon Musk vállalata, a SpaceX komolyan fontolgatja, hogy 2026-ban tőzsdére megy...

péntek 18:18

Az Andokban előkerült ősi lábnyomok átírják a dinoszauruszok történetét

Bolívia közepén, a Toro Toro nemzeti parkban mostanáig legendák övezték azokat a hatalmas, háromujjú lábnyomokat, amelyeket egykor természetfeletti erejű szörnyeknek tulajdonítottak...

péntek 15:35

Az ingatlanpiac jeges zuhanya: a KB Home váratlan húzásai

Fontos kérdés, mi történik az amerikai ingatlanpiac közepette, ahol az elmúlt évben rohamosan gyengült a kereslet...

péntek 15:18

Az elveszett AirPods pillanatok alatt meglesz: így találd meg

Külön említést érdemel, hogy az AirPods-ok elvesztése gyakoribb, mint gondolnánk. Ezek az apró fülhallgatók imádnak eltűnni kanapépárnák között, táskák és zsebek mélyén, pont amikor a legkevésbé számítasz rá...

péntek 15:02

Drágulnak az autók, szökik az adó: Virginiában forr a düh

Erre utal többek között az, hogy egy virginiai sofőr, Stephen Martin döbbenten tapasztalta: az Amherst megyei hivatal 3,5 éves Toyota Sienna egyterűjét 15,7 millió forintra értékelte adózáskor – alig kevesebbre, mint amennyiért újonnan vette...

péntek 14:50

A nagy Oracle-zuhanás: elszállt MI-álom, rekordadósság, ideges befektetők

📈 Megemlíthető, hogy a vállalat történetének egyik legrosszabb negyedéve felé tart az Oracle...

péntek 14:36

Jön az új kínai pénzeső: 7700 milliárd forint csúcstechnikára

Pénteken három új kockázati tőkealapot indított Kína, amelyek célja a hazai „kemény technológiai” startupok támogatása...

péntek 14:20

A Noise Luna Ring: megéri az MI-gyűrűbe fektetni?

💍 Érdemes tudni, hogy a Noise Luna Ring (Gen 2) egy kompakt, MI-alapú okosgyűrű, amely az előző generációhoz képest kényelmesebb viseletet, fejlettebb alvásfigyelést és számos hasznos egészségügyi adatot kínál – mindezt előfizetési díj nélkül...

péntek 13:49

A titokzatos vörös óriás, amely a Földet is megdöbbentené

💫 Ez a jelenség jól illusztrálható azzal, hogy egy távoli vörös óriás körül keringő fekete lyuk eddig példa nélküli csillagászati rejtélyekre világított rá...

péntek 13:34

A Trust Wallet-botrány: feltörték a Chrome-bővítményt

2023 karácsonyán súlyos támadás érte a népszerű kriptopénztárca, a Trust Wallet felhasználóit...