2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

hétfő 21:56

Az amerikai szendvicsóriás hamarosan a tőzsdére lép

A több mint 3000 éttermet működtető Jersey Mike’s a nyilvános tőzsdei kibocsátásra (IPO) készül: a cég titokban beadta a szükséges papírokat, így megkezdődött az a folyamat, amelynek eredményeként részvényeivel nyilvánosan is lehet kereskedni...

hétfő 21:45

Az új DaVinci Resolve 21 valóban kihívója a Lightroomnak?

Egy lényeges szempont, hogy a DaVinci Resolve 21 legújabb verziója komoly lépést tett előre a fotószerkesztés világában...

hétfő 21:34

A Blue Origin bakija padlóra küldte az AST SpaceMobile-t

Egy hétfő délutáni zuhanórepülés: az AST SpaceMobile részvényei 9%-kal estek vissza, miután kiderült, hogy a cég vadonatúj BlueBird 7 műholdját a Blue Origin rakétája rossz helyre parkolta...

hétfő 21:12

Az új Tomodachi Life-eszközzel gyerekjáték a pixelrajzok készítése

🖌 A játékosok már nemcsak álmodozhatnak a saját menő tárgyaikról vagy dekorációikról Tomodachi Life-ban: mostantól egy rajongói fejlesztésű weboldal, a Living the Grid mindenki számára lehetővé teszi, hogy bármilyen képből tökéletes pixel artot készítsen a játékban felhasználható formában...

hétfő 20:47

Az emberiség igazi akadálya: közelebb a véghez, mint az összefogáshoz

David Gross, a Nobel-díjas elméleti fizikus, egész életét annak szentelte, hogy megfejtse a világegyetem legalapvetőbb titkait...

hétfő 20:23

A Sony végre mer nagyot húzni az új Xperiával?

🚀 Nem hiszem el, de a Sony Xperia 1 VIII végre tényleg hátat fordít a megszokott stílusának, és egy teljesen új megjelenéssel rukkolhat elő...

hétfő 20:02

Az extrém terhességi hányinger valódi okára fény derült

Ilyen eset például, amikor valaki a terhessége alatt nemcsak gyakori hányingert és émelygést tapasztal, hanem extrém rosszullétek gyötrik, amelyek miatt még enni vagy inni sem tud, sőt, akár kórházi kezelésre is szorul...

hétfő 19:57

Az új Dyson PencilVac: a kis lakások titkos fegyvere?

A minimalista dizájnú, mindössze 1,8 kg-os Dyson PencilVac igazi légies újdonság a padlótisztítók között...

hétfő 19:24

Az MI-től nem kell tartani – mondja a GTA 6 főnöke

Különösen igaz ez akkor, ha a videojáték-ipar legmeghatározóbb vállalatainak vezetői beszélnek az új technológiákról: az MI (mesterséges intelligencia) helyzete ugyanis sokakat megoszt...

hétfő 19:01

Az otthoni atomzseni: tríciumos mini „nukleáris elem” napelemmel

⚡ Elég menő, amikor valaki otthon összedob egy saját „nukleáris elemet”. Az egész egyáltalán nem boszorkányság: egy kis ügyeskedéssel a radioaktív tritium fénycsövei simán társíthatók hétköznapi amorf napelemekkel...

hétfő 18:56

Az idegőrlő nagy ChatGPT-leállás: most mindenki mást okol

Egy átlagos hétindító helyett most sokan bosszankodnak: a ChatGPT, a Codex és az ezekhez kapcsolódó OpenAI API mind egyszerre mondott csődöt...

hétfő 18:45

Az MI, amitől frászt kapnak a jogászok – holnap már kötelező?

A jogászi pálya legendásan technofób: a faburkolatos tárgyalótermek, vaskos törvénykönyvek és hosszú latin kifejezések világában a legtöbben még mindig írásos jegyzetekre támaszkodnak, miközben más szakmák már régen mobilalkalmazásokra, chatbotokra és algoritmusokra bízzák a mindennapi rutint...

hétfő 18:34

A brit gázmezőkön berobban a bitcoinbányászat?

⚡ Felmerül a kérdés, hogy egy brit gázbefektető cég, a Reabold Resources miért próbálkozik bitcoin-bányászattal az ország egyik legnagyobb gázmezején...

hétfő 18:24

Az emberibb MI-élményt ígéri a Samsung új víziója

💡 A milánói dizájnhéten egy eddig nem látott, kör alakú kijelző köszönti a látogatókat a Samsung standján, amelynek forgatható “feje” első pillantásra a Luxo Jr...

hétfő 18:03

Megéri fizetni az új, minimalista Brave Originért?

Nem minden nap jelenik meg egy olyan böngésző, amelytől azt várjuk, hogy egyszerűbbé tegye az életünket, miközben új üzleti modellt próbál ki...

hétfő 17:45

A Fitbit Air átalakul: névváltás, előfizetéscsere és titokzatos újdonság

A következő generációs, kijelző nélküli Fitbit aktivitásmérő körül egyre több pletyka kering, miután Steph Curry Instagramon is megvillantotta az eszközt...

hétfő 16:36

Az iPhone-rabság vége: így lesz belőle butamobil

Ma már könnyű észrevétlenül belezuhanni a végtelen görgetés csapdájába: egy gyors üzenetellenőrzés vagy néhány percnyi szünet a munkahelyen pillanatok alatt órává nyúlhat...

hétfő 16:12

A mindentudó MI? Kvantumszámítógéppel turbóznak a kutatók

Felmerül a kérdés, hogy mire képes együtt az MI és a kvantumszámítógép...

hétfő 15:56

Az exkluzív Pixel-funkció, amiről még mindig kevesen tudnak

A Google Pixel telefonok régóta rendelkeznek egyes, csak erre a szériára jellemző funkciókkal, de akad közöttük olyan is, amely még a rajongók széles táborában is ismeretlen maradt...

hétfő 15:45

Az újabb bitcoinzuhanás mögött a DeFi-válság és a CME-rés?

💸 Például míg pénteken még történelmi magasságokat ostromolt a bitcoin, hétfőn már ismét visszatért a megszokott, ingadozó árfolyamtartományba...

hétfő 15:34

Az újabb Teams-fiaskó: a Microsoft visszavonta a balul sikerült frissítést

Különösen igaz ez akkor, ha a munkanap éppen csak elkezdődött, és a Microsoft Teams egyszerűen nem hajlandó elindulni...

hétfő 15:23

Az égbolt újra felragyog: jön a Lyrida meteorraj

🌈 Ahogy áprilisban végre berobban a tavasz, rendkívüli égi látványosság vár: a Lyrida meteorraj ismét felvillanyozza az éjszakai égboltot...

hétfő 15:12

Az óriási bitcoináradat felforgatja a kriptopiacot, tombol a DeFi-káosz

💸 Megemlíthető, hogy a kriptopiac most igencsak izgalmas időszakát éli. Az amerikai spot bitcoin ETF-ek pénteken 244 milliárd forintnyi (663 millió USD) friss tőkét szívtak fel, ami január közepe óta a legmagasabb napi érték...

hétfő 15:01

Az önvezető Teslák meghódítják Dallast és Houstont

🚗 Fontos kérdés, hogy mennyire bízhatunk a sofőr nélküli autókban – most pedig két új texasi városban nyílik lehetőség élesben kipróbálni őket...

hétfő 14:34

Az életmentő pánikfrissítés: a Microsoft megmenti a Windows-szervereket

Van, hogy az áprilisi frissítés valójában áprilisi tréfa, csak a poén most egyes szerveradminokat ért utol...

hétfő 14:23

A dolomit évszázados rejtélye végre megoldódott – de miért fontos?

🧠 Két évszázad után először sikerült a tudósoknak laboratóriumi körülmények között dolomitot növeszteniük, átfogó választ adva a geológia egyik legrégebbi rejtélyére...

hétfő 14:02

A Kelp DAO végzetes hibája: 106 milliárd forint eltűnt

Fontos kérdés, miként okozhat ekkora károkat egyetlen rossz biztonsági döntés. Egy 106 milliárd forint (290 millió USD) értékű támadás rázta meg a decentralizált pénzügyi szektort, amikor a Kelp DAO jóvátehetetlen károkat szenvedett – és mindez nem protokollhibán, hanem a rosszul beállított védelem miatt történt...

hétfő 13:48

Az új fényterápiás kütyük tényleg működnek, vagy csak felhajtás?

💡 Az elmúlt néhány évben óriásit ugrott a vörösfény-terápiás eszközök piaca: 2024-ben 158 milliárd forintot tett ki, 2025-re várhatóan 167 milliárd lesz, és 2032-re elérheti a 248 milliárdot is...

hétfő 13:34

Az első New Glenn sikeresen landolt, az űrséta viszont csúszik

🚀 Senki sem várta volna, hogy a Blue Origin első kereskedelmi küldetése ilyen felemásan alakul: miközben a New Glenn rakéta újrahasznosított első fokozata tökéletesen leszállt a visszatérő hajóra, a fő feladat – a kommunikációs műhold pályára állítása – kudarcba fulladt...