2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 08:36

Az év kriptóbotránya: 45 millió dolláros lehúzás, lenyúlós banda, visszaszerzett pénz

💸 Kibuktak a menő netes csalók, akik 45 millió dollárnyi kriptót akartak lecsapolni a gyanútlanoktól, de a rendőrök átlépték a digitális határokat, és 4,4 milliárd forintnyi ellopott összeget zároltak...

MA 08:30

A Pixel MI-s hangpostája mostantól igazán személyes

A Pixel telefonokon tavaly debütált Take a Message funkció modernizálta a hangpostát, valós idejű átiratokkal és MI-alapú kezeléssel...

MA 08:23

Az új áldozatok: ügyfelek tömege menekül a VMware-től

🚪 A Broadcom tavaly novemberi VMware-felvásárlása óta sok, korábban lojális ügyfél fordított hátat a piacvezető virtualizációs platformnak...

MA 08:01

A mesterséges intelligencia elveszi a munkád – visszatérni pokolian nehéz lesz

Azok a dolgozók, akiket az MI fejlődése miatt bocsátanak el, jóval nehezebben találnak új munkahelyet, és jelentős gazdasági hátrányokkal néznek szembe...

MA 07:56

A nagy rejtély: miért nem nőnek vissza a végtagjaink?

Aki gyerekként levágta az ujjbegyét, talán tapasztalta, hogy a testrész – bőrrel, körömmel együtt – képes volt visszanőni...

MA 07:50

Az új Gemini már nemcsak beszél, hanem meg is mutat!

Van az úgy, hogy magyarázatból sosem elég – de ha valaki vizuális típus, ezerszer könnyebb felfogni egy bonyolult témát, ha rögtön látod is, miről van szó...

MA 07:42

A Razer új fülese még a tokot is felturbózza

A Razer bemutatta Hammerhead V3 HyperSpeed vezeték nélküli gamer fülhallgatóját, amely egy trükkös tokkal érkezik...

MA 07:36

Az ugandai csimpánzok véres belháborúja dúl a dzsungelben

🐒 Jellemző példa erre, hogy az ugandai Kibale Nemzeti Parkban élő vadcsimpánzok hosszú évek óta tartó megfigyelése során most először figyelhették meg a kutatók, ahogy egy korábban egységes közösség kettészakadása halálos konfliktushoz vezetett...

MA 07:29

A Hormuzi-szoros lezárva: elszabadulnak az árak, közeleg az éhínség

A Hormuzi-szoros lezárása miatt kitört nemzetközi válság drámai hatással jár az élelmiszer-ellátásra és a mindennapi megélhetésre...

MA 07:22

Az agy rejtett csatornája: áttörés jöhet az Alzheimer ellen?

💡 Érdemes megérteni, hogy az emberi agy hulladékeltávolító rendszere mostanáig többnyire rejtve maradt...

MA 07:08

Az új mánia: klónozd le saját ikredet a YouTube-on!

Eljutottunk oda, hogy mostantól klónozhatod magad a YouTube-on – digitálisan. Az új avatar-funkcióval percek alatt teremthetsz egy olyan alteregót, amely pontosan úgy néz ki és beszél, mint te, de cserébe soha többé nem kell beülnöd a kamera elé...

MA 07:01

A Mac-ed 49 nap után összeomlik – ezt titkolja az Apple

💀 Milyen para már, amikor a Mac-ed hirtelen megáll, pedig csak békésen szöszmötöl az irodában vagy a gardróbban, egy csomó fontos feladattal a háttérben?..

MA 06:57

A kátyúk réme: az önvezető taxi megóvja a gumikat

Hihetetlen, de mégis igaz, hogy a Waymo önvezető autói mostantól nemcsak utasokat szállítanak, hanem a kátyúvadászatban is besegítenek...

MA 06:44

A mesterséges intelligencia a kanapén: Claude húszórás terápiája

🛌 Ilyen eset például, amikor egy fejlett MI-t pszichiátriai „kezelésnek” vetnek alá, hogy feltérképezzék annak mentális állapotát...

MA 06:36

Az Instagram végre enged: visszaszívhatod a kommentbénázásokat

Na hát ennyit erről, hogy az Instagramon minden örök – mostantól visszavonhatod vagy kijavíthatod a kommentjeidet, amelyeket posztok alá írsz, persze csak 15 percen belül...

MA 06:29

Az OpenAI az új ChatGPT Pro-val csábítja át a fejlesztőket

Az OpenAI új szintet vezetett be a ChatGPT-előfizetéseknél, amellyel egyértelműen a fejlesztői közösséget igyekszik magához láncolni...

MA 06:22

Az új kriptósztárok letaszítják trónjáról a bitcoin ETF-eket?

Nakamoto, SharpLink és Strive nevét most érdemes megjegyezni: ezek a digitális vagyonkezelő cégek a legnagyobb zuhanás után akár a bitcoin ETF-eknél is jobban teljesíthetnek...

MA 06:15

Az új LucidRook kártevő tajvani NGO-kat és egyetemeket támad

Egy fejlett, Lua-alapú, LucidRook nevű kártevő ütötte fel a fejét Tajvanon, amely nonprofit szervezeteket és egyetemeket támad phishing (adathalász) e-mailekkel...

MA 06:09

A Nap széttépte az üstököst – oda a várt csoda

Az égbolt szerelmesei hetek óta készültek arra, hogy idén tavasszal átélhessék a rendkívüli látványt: egy új „napközeli” – vagyis extrém közel a Naphoz suhanó – üstökös tűnt fel, amely akár nappal is látható fényességet ígért...

MA 06:05

Történelmi események a mai napon (Április 10.)

Ma olyan mérföldkövek sorjáznak, mint a Statute of Anne első szerzői jogi törvénye, a pingpong-diplomácia áttörése, és a szmolenszki légikatasztrófa tragédiája...

csütörtök 21:35

A Hades 2 berobban – durva újdonságok az Xbox Game Passben

Áprilisban igazán izgalmas időszak vár az Xbox Game Pass előfizetőire: díjnyertes folytatások, zseniális új független címek, klasszikusok ráncfelvarrott kiadásai és persze jó néhány addiktív gyöngyszem kerül fel a platformra...

csütörtök 21:23

Az MI-ügynökök forradalma: amikor a kód önmagát írja át

A mesterséges intelligencia fejlesztésének egyik legfőbb kihívása, hogy olyan autonóm ügynökök épüljenek, amelyek képesek alkalmazkodni a környezet változásaihoz anélkül, hogy az alapul szolgáló nagy nyelvi modellt újra kellene tanítani...

csütörtök 21:13

Az új T‑Mobile csomagok közül melyik a legjobb 2026-ban?

A T-Mobile 2026-ot egy váratlan új csomag bejelentésével indította, amely minden eddigi várakozást felülmúlt...

csütörtök 21:02

Az Antarktisz bajban: már a császárpingvin is veszélyeztetett

🐧 Érdemes megvizsgálni, hogy az Antarktisz két ikonikus állata, a császárpingvin és az antarktiszi (délsarki) medvefóka drámai helyzetbe kerültek...

csütörtök 20:56

Az új Lyme-vakcina áttörést ígér – de kérik-e majd?

💉 Míg az elmúlt években a Lyme-kór egyre komolyabb egészségügyi problémává nőtte ki magát, most új remény villant fel: a Pfizer és a Valneva közös fejlesztése révén egy hatékony vakcina kerülhet a piacra, amely segíthet megfékezni ezt a kullancsok által terjesztett betegséget...

csütörtök 20:45

A bölcs vezetők pénteken nem döntenek – így kerüld el a kiégést

Ami először apróságnak tűnt, könnyen válhat sorsfordító hibává egy hosszú, megerőltető munkahét végén...

csütörtök 20:34

A Kia új pickupja 2030-ra letarolja Amerikát

A következő években merész lépésre készül a dél-koreai Kia: az amerikai autópiacra szán egy teljesen új pickup-modellt...

csütörtök 20:23

Az offline MI végre megérkezett: a Gemma 4 a zsebedben

📱 A Google a napokban elérhetővé tette új alkalmazását, az AI Edge Gallery-t, ami letölthető a Google Play Áruházból és az Apple App Store-ból is...

csütörtök 20:12

A nyugalmadért kapcsold ki végre a Spotify-videókat!

🔊 Mondták már, hogy retró zenelejátszó-élményt szeretnél egy ekkora appban? Most már lehet!..