2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 21:56

Az Apple végleg elkaszálta a méregdrága Mac Prót

🗑 Tizenöt év után az Apple hivatalosan leállította a torony kivitelű Mac Pro gyártását, egyúttal bejelentette, hogy utódmodellre egyelőre nem lehet számítani...

MA 21:45

Az első MI-cikk átcsúszott a rostán: kitört a pánik

😱 Egy tudományos mérföldkőhöz érkeztünk: először sikerült egy kizárólag MI által írt tudományos publikációnak átjutnia az emberi szakmai ellenőrzésen...

MA 21:34

Az apró mágneses örvények forradalma: új korszak az adattárolásban

📡 Ebből következően érdemes megérteni, hogy az eddig alig érzékelhető mágneses hullámokban rejlő lehetőség teljesen új távlatokat nyithat a számítástechnika és a kvantuminformatika összekapcsolásában...

MA 21:12

A PS5 megint drágul: a Sony nem kíméli a pénztárcákat

💸 Különösen igaz ez akkor, ha valaki épp most szeretne beszerezni egy PlayStation 5-öt...

MA 20:45

Az internet hemzseg a kiszivárgott kulcsoktól – bankok is érintettek

🔑 Több tízmillió oldal átfésülése után döbbenetes eredményre jutottak a biztonsági kutatók: közel 2000 érvényes, alkalmazásokhoz használt API-kulcsot, vagyis gyakorlatilag bejárati kulcsokat találtak szabadon elérhetően az interneten, amelyekből egyesek nagyvállalatokhoz, kritikus infrastruktúrákhoz és kormányzati szervekhez tartoztak...

MA 20:34

Az álhírek tüzében a VS Code: veszélyben a GitHub-fejlesztők?

💥 A GitHubot elárasztotta egy nagyszabású átverés, amely során fejlesztők ezreit célozzák hamis Visual Studio Code (VS Code) biztonsági figyelmeztetésekkel...

MA 20:23

Veszélyben a felhasználók: súlyos hiba egy toplistás MI-bővítményben

⚠ A Claude Chrome-bővítmény nemrégiben súlyos hibát tartalmazott, amely lehetővé tette a hackerek számára, hogy mindenféle felhasználói beavatkozás nélkül átvegyék az irányítást a böngésző felett...

MA 20:12

Az új pénzügyi igazgatód: mesterséges intelligencia?

🤖 Alex Balazs több mint húsz éve dolgozik az Intuitnál, kezdve mérnökként a QuickBooks Online első verzióin, amikor az volt a fő kérdés, hogy a pénzügyi folyamatokat hogyan lehet áthelyezni az internetre...

MA 20:02

A VPN-ek titka: a joghatóságon áll vagy bukik a magánszféra

Külön említést érdemel, hogy a VPN-ek világában nemcsak a sebesség, a szerverek száma vagy a felhasználóbarát kezelőfelület számít...

MA 19:56

Az Androidon újra itt az egyérintéses Wi‑Fi kapcsoló

Az Android 17 Beta 3 végre elhozza azt a könnyítést, amire sokan vágytak: ismét elég egyetlen érintés a Wi-Fi ki- vagy bekapcsolásához a Gyorsbeállítások panelen...

MA 19:45

Az újabb pofátlan PS5-drágulás: meddig bírja a pénztárcád?

💸 A PlayStation 5 ára ismét az egekbe szökik, és most nem finomkodik a Sony: 20–30%-kal többet kell kiadni, mint néhány hónapja...

MA 19:34

A Netflix újabb áremelése a Verizon-ügyfeleket is sújtja

💸 Erre utal többek között az, hogy a Verizon előfizetői újabb áremeléssel szembesülnek: a Netflix és az HBO Max (reklámos) csomagért eddig kedvezményes árat fizettek, de ennek most vége...

MA 18:02

Az univerzum titkos múltja: az apró fekete lyukak hajnala?

💫 A fekete lyukak világa egészen lenyűgöző. Nemcsak a téridőt képesek meghajlítani, de elképesztő sebességgel forognak, és mindent magukba szívnak, ami a közelükbe kerül...

MA 17:34

Az első üstökös, amely megfordította forgásirányát: a NASA megfigyelte

2017-ben a NASA Hubble űrtávcsöve egy igencsak különös üstökössel találkozott, amikor megközelítette a Napot...

MA 17:23

A bélrendszer titkos szövetségesei: baktériumok, amelyek átprogramozzák az immunrendszeredet

A bélrendszerben élő baktériumok nem csupán ártalmatlan utasok: képesek fehérjéket közvetlenül az emberi sejtekbe juttatni...

MA 17:12

Az Európai Bizottság megint ég: Amazon-felhőből loptak, zsarolás egyelőre nincs

💧 Nem hiszem el, de újabb felhőalapú lebőgés rázta meg az Európai Bizottságot: egy hackercsapat simán hozzáfért az EU-s tisztviselők Amazon-felhőjéhez, és közben 350 GB-nyi adatot szippantott le több adatbázisból...

MA 17:02

Az MI-csoda megbukott: a Grok tiltja a meztelenképeket

Elon Musk MI-fejlesztő cége, az xAI komoly jogi pofont kapott Hollandiában...

MA 16:56

A mobilodon többé semmi sem titok Hongkongban

📱 Hongkong új nemzetbiztonsági szabályai alapjaiban forgatják fel az adatvédelem eddigi rendjét...

MA 16:46

A bíróság szerint jogszerű az X elleni hirdetői bojkott – pórul járt Musk

🛑 Elon Musk legújabb perében igyekezett bizonyítani, hogy az X-et (korábbi nevén Twitter) elhagyó hirdetők versenyjogot sértettek közös fellépésükkel...

MA 16:34

A PlayStation most aranyárban van: ki fizet ennyit érte?

Hihetetlen, de a PlayStation-konzolok ára újabb őrült szintre lép jövő héten, úgyhogy ha most akarsz PlayStation-t venni, kapd össze magad!..

MA 16:24

A tavaszi utazásodhoz melyik power bank a nyerő?

🛫 Felmerül a kérdés, hogy a mai okoseszközökkel telepakolt táskákban hogyan lehet minden eszközt folyamatosan működésben tartani egy hosszú túra, városnézés vagy akár egy fesztivál alatt...

MA 14:01

Az új iOS gyorsan meríti az iPhone-t? Nyugi, normális!

Kiugrott az új iOS 26.4 március 24-én, hozott magával egy rakás izgalmat: végre saját videós podcastok pörögnek az Apple Podcastsban, némi hibajavítás is becsúszott, meg persze még pár apróság...

MA 13:56

Az Anthropic szigorít: csúcsidőben drágul az MI-csevegés

⚠ Az Anthropic szerdán váratlan fordulattal módosította a Claude nevű MI-szolgáltatás időalapú felhasználási korlátait...

MA 13:45

Az új Langflow-sebezhetőségre már rárepültek a hackerek

A Langflow-keretrendszer egy súlyos sebezhetőség miatt került veszélybe, amelyet a hackerek már aktívan ki is használnak...

MA 13:34

A kisbefektetők pánikban szórják a bitcoint, a nagyok kivárnak

A bitcoin megint zuhan, most épp 24,5 millió forint alá esett egy darabja, és ahogy ez lenni szokott, előkerül a pánikgomb: akik 10 bitcoint (vagyis nagyjából 245 millió forintnyit) tartanak vagy annál kevesebbet, szó szerint menekítik a vagyonukat...

MA 13:23

A legjobb gamepadok egyike most fillérekért elvihető

🎮 Egy lényeges szempont, hogy a hardverhiány miatti áremelkedés főként a belső alkatrészekre volt jellemző, de a perifériák ára nagyrészt stabil maradt...

MA 12:01

A pumpamentes átfolyós akkumulátor: tényleg ez a jövő?

Most őszintén, észrevetted már, hogy a legtöbb flow battery (átfolyós akkumulátor) bonyolult pumpákkal van telepakolva?..

MA 11:44

A nagy blama: milliárdok menekülnek a bitcoin ETF-ekből

💸 Csütörtökön nagyot rándult a piac: a befektetők egyetlen nap alatt 62 milliárd forint értékű – azaz 171 millió dollárnyi – tőkét vontak ki az amerikai bitcoin ETF-ekből...

MA 11:11

Lezárul egy korszak: az Apple kivezeti a Mac Pro-t

Szevasz, Mac Pro, hello, régi idők! Az Apple minden megmaradt Mac Pro-rajongónak most azt üzeni: köszi, ennyi volt...