2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

csütörtök 20:55

Az MI-őrület felfalja a memóriát, szabadesésben a Qualcomm

💸 A Qualcomm részvényei 7%-ot estek, miután a vállalat aggasztó előrejelzést adott ki a memóriachip-hiány miatt...

csütörtök 20:37

A legnagyobb olasz egyetem térdre rogyott: hackerek blokkolták rendszereit

Olaszország legnagyobb egyeteme, a római La Sapienza, nagyszabású kibertámadás áldozata lett, emiatt teljesen leálltak az oktatási intézmény informatikai rendszerei...

csütörtök 20:19

Az igazi tét: a blokklánc a pénzügyeké, nem a játékoké

A Solana Alapítvány elnöke, Lily Liu szerint ideje, hogy a blokklánc visszataláljon eredeti küldetéséhez: a pénzügyi szektor megújításához...

csütörtök 20:02

Az MI végre megért: a Voxtral Transcribe 2 forradalma

A párizsi székhelyű Mistral újabb lendületet adott az MI-harcmezőn: bemutatta a Voxtral Transcribe 2 nevű, teljesen nyílt forráskódú hangfelismerő modelljét...

csütörtök 19:56

Az MI is hős lehet: a Dungeons & Dragons lett a tesztlabor

Képzeld el, hogy a Dungeons & Dragons (D&D) már nemcsak baráti asztaltársaságok kedvenc játéka, hanem igazi tesztpálya a legújabb MI-modellek számára is...

csütörtök 19:38

A hangalapú vezérlés az MI következő nagy dobása

🔈 Az MI világában új korszak kezdődhet: a hangalapú vezérlés átveheti az uralmat a megszokott érintőképernyős és szöveges interakció felett...

csütörtök 19:20

Az igazság a hálóban lapul: mit rejtenek a felhőnaplók?

A digitális világ átalakulásával a cégek tömegesen költöznek a felhőbe, ám ez a lépés új biztonsági vakfoltokat teremthet...

csütörtök 19:01

Az MI-forradalom csúcsán Mark Cuban bulizni küldi a világot

🎉 Mark Cuban, aki gyakran hangoztatja, hogy az MI a jövő, most váratlan fordulattal egy élő eseményeket szervező cégbe, a Burwoodlandbe fektetett...

csütörtök 18:55

Az Nvidia az MI miatt parkolópályára teszi a gamer kártyákat

Az Nvidia jelentősen átrendezi a prioritásait: a legújabb RTX 50-es széria Super frissítése elmarad, és akár 2028-ig sem várható új RTX 60-as sorozat...

csütörtök 18:37

Az új űrruha forradalmasítja a holdraszállást

🚀 Érdemes megvizsgálni, hogy a NASA 1972 óta először készül holdraszállásra, és ehhez a következő generációs űrruha is hamarosan bemutatkozik...

csütörtök 18:19

Vége az AirDrop egyeduralmának: megérkezett az Android válasza

🚀 Végre elérkezett az, amire minden Android-felhasználó régóta vágyott: a Google hivatalosan is bejelentette, hogy a Quick Share és az AirDrop közötti átjárhatóság hamarosan már nemcsak a Pixel 10 modellek kiváltsága lesz...

csütörtök 18:02

Az évszázad vérholdja márciusban érkezik

Március 3-án hajnalban ritka látványban lehet része azoknak, akik az Egyesült Államok nyugati felén és Észak-Amerika több pontján laknak: teljes holdfogyatkozás, vagyis vérhold látható majd az égbolton...

csütörtök 17:38

Az ultravékony felület, amely kétszer is becsapja a fényt

Érdemes megérteni, hogy a legújabb optikai fejlesztésnek köszönhetően egy ultravékony metafelület segítségével már lehetséges a fényt két teljesen eltérő módon téríteni, fókuszálni és irányítani – úgy, hogy mindkét spin-csatorna függetlenül működik, mégis az egész színskálán stabil eredményt ad...

csütörtök 17:19

Az MI-ügynökök felemelhetnek, vagy romba dönthetik az életed

🤖 A ChatGPT ma már kevés újdonságot nyújt ahhoz képest, ami a következő generációs MI-ügynökök fejlesztésében zajlik...

csütörtök 17:02

A leépítési hullám már a 2009-esnél is durvább

📈 Az amerikai munkaerőpiac januárban olyat produkált, amire 15 éve nem volt példa: a vállalatok 108 435 dolgozótól váltak meg, ami 118%-os emelkedés az előző évhez képest és 205%-os növekedés decemberhez képest...

csütörtök 16:37

A rejtélyes földalatti óriások formálják Földünk mágneses terét

Kutatások szerint mélyen a Föld felszíne alatt elképesztően nagy és forró kőzetstruktúrák rejtőznek, amelyek évmilliók óta befolyásolják bolygónk mágneses terének alakulását...

csütörtök 15:55

Az ünnepek alatt bezuhantak a PS5‑eladások

📉 A Sony eddig világszerte 92,2 millió PlayStation 5‑konzolt szállított ki, azonban az ünnepi szezonban 16 százalékkal kevesebb PS5 talált gazdára, mint tavaly...

csütörtök 15:39

Az Amazfit Active Max: tényleg a legjobb olcsó fitneszóra?

💪 Az olcsó, mégis megbízható okosórák között régóta vezető szerepet tölt be az Amazfit...

csütörtök 15:19

A floridai partok felett táncoló felhőutcák: a hideg levegő játéka

Fagyos levegő lepte el az Egyesült Államok keleti részét, Florida partjainál pedig különleges, szemet gyönyörködtető felhősávok rajzolódtak ki a műholdképeken...

csütörtök 15:02

A mesterséges intelligencia memóriaéhsége padlóra küldi az okostelefonos piacot és a Qualcommot

📶 A Qualcomm történelmi, 12,3 milliárd dolláros (kb. 4 375 milliárd forintos) negyedéves bevétellel zárt, főleg a prémium okostelefonoknak és az egyre népszerűbb okosszemüvegeknek, autóipari és IoT-termékeknek köszönhetően...

csütörtök 14:01

A nagy NGINX-átverés: titokban eltérített szerverek

⚠ Egy új, kifinomult támadássorozatban hackerek sikeresen kompromittálnak NGINX-szervereket, hogy a felhasználói forgalmat titokban a saját háttér-infrastruktúrájukra irányítsák át...

csütörtök 13:56

Az FBI is beletört a bicskája: kifogott rajtuk az Apple Lockdown mód

Érdekes felvetés, hogy még az Egyesült Államok Szövetségi Nyomozó Irodája (FBI) is kudarcot vallhat, ha egy újságíró iPhone-ját próbálja feltörni, köszönhetően az Apple által fejlesztett Lockdown módnak...

csütörtök 13:39

A véralvadásgátlók életet mentenek – de súlyos vérzést okozhatnak

💉 Több mint 8 millió amerikai szed alvadásgátlót veszélyes vérrögök megelőzésére. Ennek ellenére ezek a gyógyszerek évente több százezer, komoly vérzéssel végződő esetért felelősek...

csütörtök 13:03

A brutális Android 16 QPR3-frissítés a Pixel mobilokra érkezik

🔥 A március izgalmas újdonságokat hoz a Pixel telefonokra. Az Android 16 QPR3 nagy platformfrissítése hamarosan elérhető lesz, ráadásul ezúttal nem csupán apró biztonsági javításokra, hanem valóban látványos, a napi használatot érintő változásokra számíthatnak a felhasználók...

csütörtök 12:55

Az agy megtéveszti az immunrendszert: a tüdőrák titkos fegyvere

🧠 A tüdőrák évtizedek óta csak a kontrollt vesztett sejtosztódás hibájaként szerepelt az orvosi gondolkodásban, de friss kutatások feltárták: a daganatok aktívan kommunikálnak az aggyal, hogy kijátsszák az immunrendszert...

csütörtök 12:37

Az MI felforgatja az ügyvédi irodák mindennapjait

Felmerül a kérdés, hogy egy MI-alapú startup hogyan képes átformálni egy olyan hagyományos területet, mint az ügyvédi irodák piaca...

csütörtök 12:19

A Substack adatbotránya: kiszivárogtak a felhasználói adatok

Októberben súlyos biztonsági résen keresztül szivárogtak ki a Substack-felhasználóinak e-mail-címei és telefonszámai, ám a vállalat csak február elején észlelte az incidenst...

csütörtök 12:02

Az egészséges Barry Manilow mégis halasztja Las Vegas-i koncertjeit

A 81 éves Barry Manilow sikeres műtét után kiválóan érzi magát, de orvosa tanácsára átszervezi közelgő Las Vegas-i koncertjeit, hogy maradéktalanul a felépülésre és az év eleji turnéjára tudjon koncentrálni...

csütörtök 11:38

A pénztárcabarát, 12 portos 10GbE switch, ami felülmúl minden várakozást

💰 A Sodola SL-SWTGW2C48NS 12 portos 10GbE switch első ránézésre feltűnően olcsó, hiszen mindössze 84 000 forintért (230 USD) kínálják, sőt, egyes akciókkal akár 77 000 forintért is beszerezhető...