2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 21:45

Az új DaVinci Resolve 21 valóban kihívója a Lightroomnak?

Egy lényeges szempont, hogy a DaVinci Resolve 21 legújabb verziója komoly lépést tett előre a fotószerkesztés világában...

MA 21:34

A Blue Origin bakija padlóra küldte az AST SpaceMobile-t

Egy hétfő délutáni zuhanórepülés: az AST SpaceMobile részvényei 9%-kal estek vissza, miután kiderült, hogy a cég vadonatúj BlueBird 7 műholdját a Blue Origin rakétája rossz helyre parkolta...

MA 21:12

Az új Tomodachi Life-eszközzel gyerekjáték a pixelrajzok készítése

🖌 A játékosok már nemcsak álmodozhatnak a saját menő tárgyaikról vagy dekorációikról Tomodachi Life-ban: mostantól egy rajongói fejlesztésű weboldal, a Living the Grid mindenki számára lehetővé teszi, hogy bármilyen képből tökéletes pixel artot készítsen a játékban felhasználható formában...

MA 20:47

Az emberiség igazi akadálya: közelebb a véghez, mint az összefogáshoz

David Gross, a Nobel-díjas elméleti fizikus, egész életét annak szentelte, hogy megfejtse a világegyetem legalapvetőbb titkait...

MA 20:23

A Sony végre mer nagyot húzni az új Xperiával?

🚀 Nem hiszem el, de a Sony Xperia 1 VIII végre tényleg hátat fordít a megszokott stílusának, és egy teljesen új megjelenéssel rukkolhat elő...

MA 20:02

Az extrém terhességi hányinger valódi okára fény derült

Ilyen eset például, amikor valaki a terhessége alatt nemcsak gyakori hányingert és émelygést tapasztal, hanem extrém rosszullétek gyötrik, amelyek miatt még enni vagy inni sem tud, sőt, akár kórházi kezelésre is szorul...

MA 19:57

Az új Dyson PencilVac: a kis lakások titkos fegyvere?

A minimalista dizájnú, mindössze 1,8 kg-os Dyson PencilVac igazi légies újdonság a padlótisztítók között...

MA 19:24

Az MI-től nem kell tartani – mondja a GTA 6 főnöke

Különösen igaz ez akkor, ha a videojáték-ipar legmeghatározóbb vállalatainak vezetői beszélnek az új technológiákról: az MI (mesterséges intelligencia) helyzete ugyanis sokakat megoszt...

MA 19:01

Az otthoni atomzseni: tríciumos mini „nukleáris elem” napelemmel

⚡ Elég menő, amikor valaki otthon összedob egy saját „nukleáris elemet”. Az egész egyáltalán nem boszorkányság: egy kis ügyeskedéssel a radioaktív tritium fénycsövei simán társíthatók hétköznapi amorf napelemekkel...

MA 18:56

Az idegőrlő nagy ChatGPT-leállás: most mindenki mást okol

Egy átlagos hétindító helyett most sokan bosszankodnak: a ChatGPT, a Codex és az ezekhez kapcsolódó OpenAI API mind egyszerre mondott csődöt...

MA 18:45

Az MI, amitől frászt kapnak a jogászok – holnap már kötelező?

A jogászi pálya legendásan technofób: a faburkolatos tárgyalótermek, vaskos törvénykönyvek és hosszú latin kifejezések világában a legtöbben még mindig írásos jegyzetekre támaszkodnak, miközben más szakmák már régen mobilalkalmazásokra, chatbotokra és algoritmusokra bízzák a mindennapi rutint...

MA 18:34

A brit gázmezőkön berobban a bitcoinbányászat?

⚡ Felmerül a kérdés, hogy egy brit gázbefektető cég, a Reabold Resources miért próbálkozik bitcoin-bányászattal az ország egyik legnagyobb gázmezején...

MA 18:24

Az emberibb MI-élményt ígéri a Samsung új víziója

💡 A milánói dizájnhéten egy eddig nem látott, kör alakú kijelző köszönti a látogatókat a Samsung standján, amelynek forgatható “feje” első pillantásra a Luxo Jr...

MA 18:03

Megéri fizetni az új, minimalista Brave Originért?

Nem minden nap jelenik meg egy olyan böngésző, amelytől azt várjuk, hogy egyszerűbbé tegye az életünket, miközben új üzleti modellt próbál ki...

MA 17:45

A Fitbit Air átalakul: névváltás, előfizetéscsere és titokzatos újdonság

A következő generációs, kijelző nélküli Fitbit aktivitásmérő körül egyre több pletyka kering, miután Steph Curry Instagramon is megvillantotta az eszközt...

MA 16:36

Az iPhone-rabság vége: így lesz belőle butamobil

Ma már könnyű észrevétlenül belezuhanni a végtelen görgetés csapdájába: egy gyors üzenetellenőrzés vagy néhány percnyi szünet a munkahelyen pillanatok alatt órává nyúlhat...

MA 16:12

A mindentudó MI? Kvantumszámítógéppel turbóznak a kutatók

Felmerül a kérdés, hogy mire képes együtt az MI és a kvantumszámítógép...

MA 15:56

Az exkluzív Pixel-funkció, amiről még mindig kevesen tudnak

A Google Pixel telefonok régóta rendelkeznek egyes, csak erre a szériára jellemző funkciókkal, de akad közöttük olyan is, amely még a rajongók széles táborában is ismeretlen maradt...

MA 15:45

Az újabb bitcoinzuhanás mögött a DeFi-válság és a CME-rés?

💸 Például míg pénteken még történelmi magasságokat ostromolt a bitcoin, hétfőn már ismét visszatért a megszokott, ingadozó árfolyamtartományba...

MA 15:34

Az újabb Teams-fiaskó: a Microsoft visszavonta a balul sikerült frissítést

Különösen igaz ez akkor, ha a munkanap éppen csak elkezdődött, és a Microsoft Teams egyszerűen nem hajlandó elindulni...

MA 15:23

Az égbolt újra felragyog: jön a Lyrida meteorraj

🌈 Ahogy áprilisban végre berobban a tavasz, rendkívüli égi látványosság vár: a Lyrida meteorraj ismét felvillanyozza az éjszakai égboltot...

MA 15:12

Az óriási bitcoináradat felforgatja a kriptopiacot, tombol a DeFi-káosz

💸 Megemlíthető, hogy a kriptopiac most igencsak izgalmas időszakát éli. Az amerikai spot bitcoin ETF-ek pénteken 244 milliárd forintnyi (663 millió USD) friss tőkét szívtak fel, ami január közepe óta a legmagasabb napi érték...

MA 15:01

Az önvezető Teslák meghódítják Dallast és Houstont

🚗 Fontos kérdés, hogy mennyire bízhatunk a sofőr nélküli autókban – most pedig két új texasi városban nyílik lehetőség élesben kipróbálni őket...

MA 14:34

Az életmentő pánikfrissítés: a Microsoft megmenti a Windows-szervereket

Van, hogy az áprilisi frissítés valójában áprilisi tréfa, csak a poén most egyes szerveradminokat ért utol...

MA 14:23

A dolomit évszázados rejtélye végre megoldódott – de miért fontos?

🧠 Két évszázad után először sikerült a tudósoknak laboratóriumi körülmények között dolomitot növeszteniük, átfogó választ adva a geológia egyik legrégebbi rejtélyére...

MA 14:02

A Kelp DAO végzetes hibája: 106 milliárd forint eltűnt

Fontos kérdés, miként okozhat ekkora károkat egyetlen rossz biztonsági döntés. Egy 106 milliárd forint (290 millió USD) értékű támadás rázta meg a decentralizált pénzügyi szektort, amikor a Kelp DAO jóvátehetetlen károkat szenvedett – és mindez nem protokollhibán, hanem a rosszul beállított védelem miatt történt...

MA 13:48

Az új fényterápiás kütyük tényleg működnek, vagy csak felhajtás?

💡 Az elmúlt néhány évben óriásit ugrott a vörösfény-terápiás eszközök piaca: 2024-ben 158 milliárd forintot tett ki, 2025-re várhatóan 167 milliárd lesz, és 2032-re elérheti a 248 milliárdot is...

MA 13:34

Az első New Glenn sikeresen landolt, az űrséta viszont csúszik

🚀 Senki sem várta volna, hogy a Blue Origin első kereskedelmi küldetése ilyen felemásan alakul: miközben a New Glenn rakéta újrahasznosított első fokozata tökéletesen leszállt a visszatérő hajóra, a fő feladat – a kommunikációs műhold pályára állítása – kudarcba fulladt...

MA 13:23

Az AirPods kamerás verziója nagy bajban: falba ütközött a fejlesztés

Érdekes felvetés, hogy a jövőben akár kamerával felszerelt fülhallgatókat is viselhetünk, ám a legújabb kutatások szerint a technológia közel sem áll még készen ennek megvalósítására...