MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
Ezt jól illusztrálja, hogy a MacBook Neo alapos szétszerelésekor meglepő felfedezés született: a legújabb, pénztárcabarát Apple-laptop szokatlanul könnyen javítható...
📷 A legutóbbi márciusi frissítés sok Pixel-felhasználónak okozott csalódást: a népszerű Recents (Legutóbbi alkalmazások) képkiválasztó funkció jelentősen megváltozott...
Erre utal többek között az, hogy 2026 januárjában egy nagy biztosítótársaság vezérigazgatója összehívta vezetőit: kié legyen a vállalat MI-fejlesztései feletti kontroll?..
Az elmúlt napokban szinte példátlan kibertámadás bénította le a Stryker működését, amely világszerte kulcsfontosságú orvosi eszközökkel látja el a kórházakat...
🔒 A Truecaller ismét újít: immár lehetőséget kínál arra, hogy egy családtag vagy barát legyen a családi csoport adminisztrátora, figyelmeztetést kapjon a többieket érő gyanús hívásokról, sőt, ha veszélyt észlel, akár le is tegye a telefont a csoport más tagja helyett...
A Live Nation botránya most újabb bizonyítékokkal bővült, miután napvilágra kerültek olyan belső üzenetek, amelyekből kiderül: cégen belüli vezetők szinte büszkén beszéltek arról, hogy a koncertlátogatókat arcátlan díjakkal húzzák le – például egy egyszerű parkolóhely felárával is...
🚀 Az amerikai űrügynökség ismét nekifut a régóta várt Artemis II indításának: ezúttal április 1-jén, magyar idő szerint 23:24-kor célozzák meg a Hold körüli utazás kezdetét...
Az év eleje határozottan a változás időszaka a kínai villanyautó-piacon. 2026 első két hónapjában a Tesla Kínában gyártott járműveinek eladásai 35%-kal, 127 728 darabra ugrottak, szemben az előző év 93 926-os adatával...
A Ripple, amely az XRP kriptovalutáról ismert, hatalmas, 273 milliárd forintos (750 millió dolláros) részvényvisszavásárlást hajtott végre: értékelése így most eléri a 18 ezermilliárd forintot (50 milliárd dollár)...
👨🏥 Amerikában teljesen megváltozott az egészségügy arca: már nemcsak hagyományos orvosok, hanem egyre több nővérdoki (NP, azaz nurse practitioner) és orvosasszisztens (PA) viszi a hátán a rendszert...
🖌 A HP ismét a figyelem középpontjába került, miután kiadott egy új firmware-frissítést, amely több nyomtatójában letiltotta a harmadik féltől származó tintapatronokat...
📊 Hadd ordítsam már bele a levegőbe, hogy a bitcoin 71 800 dollárra száguldott, miután Scott Bessent, az USA pénzügyminisztere bejelentette, hogy ideiglenesen engedélyezik az orosz olaj tengerentúlról történő beszerzését, hogy enyhítsék a piaci pánikot...
📷 A MacBook Neo igazi biztonsági trükköt villant: mostantól egy teljesen új kamerajelző rendszerrel érkezik, ahol nemcsak egy kis zöld lámpácska jelez, hanem a kijelzőn is megjelenik egy kameraindikátor...
⚡ A Meta a világ egyik legnagyobb MI-infrastruktúráját üzemelteti, nap mint nap több milliárd ember találkozik a platformjai által kínált rendszerekkel – legyen szó személyre szabott ajánlásokról vagy intelligens asszisztensekről...
Felmerül a kérdés, mennyire ritka esemény tanúi lehetünk most az űrben: csillagászok először figyelhettek meg valós időben két bolygó összeütközését egy távoli csillag közelében...
Az új Perplexity Computer mostantól szintet lép: a helyi gépeden futó ügynökök könnyedén hozzáférhetnek a személyes fájljaidhoz és alkalmazásaidhoz – mindezt azért, hogy az MI bármilyen munkafolyamatot automatizáljon helyetted...
💫 Egy fekete lyuk és egy neutroncsillag először ütközött össze nem kör alakú pályán, hanem egy elnyúlt, ovális pályán – ezzel megdőlni látszik az, amit eddig a tudósok ezekről a furcsa kozmikus párokról gondoltak...
📈 Nehéz elhinni, de a Bitcoin ismét a 71 ezres szint környékén stabilizálódott, miközben a világ részvénypiacai tovább gyengélkednek az emelkedő olajárak és közel-keleti feszültségek miatt...
Claude, az Anthropic menő mesterséges intelligenciája mostantól nemcsak szövegel, hanem mindenféle vizuális varázslattal is feldobja a beszélgetéseidet...
Rövid utazás az évszázadokon átívelő naptárban: ma volt a nyolcvanéves háború kezdete, Uranusz felfedezése és a világ leghosszabb tengeralatti alagútjának megnyitása...