MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
💫 Egy különös robbanás forgatta fel az eddigi csillagászati tudást: a GRB 250702B nevű esemény, amelyet a James Webb Űrtávcső és tucatnyi földi obszervatórium figyelt meg, egészen új magyarázatért kiált...
🌍 Ilyen helyzet például, amikor a világűr meghódításához már nem elég a napelem: a NASA a közelmúltban bejelentette, hogy 2028 előtt nukleáris meghajtású űrhajót indít a Mars felé, és a Holdon is bázist építene...
Radart építeni nem feltétlenül kerül vagyonokba: ki gondolná, hogy már eleve rádiójelek tengerében élünk, és csak egy kis kreativitás kell, hogy ebből képet alkossunk?..
⚡ A Mistral nevű francia MI-startup 286 milliárd forintot (830 millió USD-t) szerzett adósságfinanszírozás formájában, hogy Párizs közelében működtethessen egy modern adatközpontot...
✈ Különösen említést érdemel, hogy az utóbbi időben szokatlanul hosszúra nyúlt sorok kígyóznak az amerikai reptereken, amit egyszerre okoz a részleges kormányzati leállás miatti repülőtéri biztonsági dolgozók tömeges hiányzása és a tavaszi szünet idején megélénkülő utasforgalom...
Az Artemis II küldetés olyan mérföldkőhöz érkezett, amelyre több mint fél évszázada nem volt példa: négy űrhajós hamarosan a Hold közelébe utazik, emberes küldetés keretében először az Apollo-korszak lezárulta óta...
💪 Napi néhány perc lendületes testmozgás is jelentősen csökkentheti nyolc fő betegség kialakulásának kockázatát, beleértve az ízületi gyulladást, a szívbetegséget és a demenciát...
A ShinyHunters nevű zsarolóhacker-csoport feltörte az Európai Bizottság webes platformját, és sikeres kibertámadását követően az adatok jelentős részét megszerezte...
📱 A Samsung a közelmúltban nagy lépést tett, amikor csatlakozott a Google-hoz, és a Quick Share funkción keresztül AirDrop-támogatást tett elérhetővé eszközein...
⚠️ A Kikai-kaldera, amely 7300 évvel ezelőtt a Föld legnagyobb holocén kori kitörését okozta, újból magmával töltődik fel a kutatók legújabb eredményei szerint...
Lehet, hogy elsőre egyértelműnek tűnik, hogy az USB-C-s lítiumcellákat simán feltöltheted a készülékben hagyva, de kapaszkodj, mert ehhez azért akad pár buktató...
Amikor már azt hinnéd, hogy a múzeumi biztonság a csúcson van, négy maszkos tolvaj simán túljárt mindenki eszén a Parma közelében álló Magnani-Rocca Alapítvány villájában...
Megvizsgáljuk, hogy hamarosan az Android legújabb funkciója lehetővé teszi-e nemcsak névjegyek, hanem fájlok megosztását is két telefon összeérintésével...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. RPG Alphadia Neo (iPhone/iPad)Ebben a klasszikus fantasy történetben az Energi, az életerő körüli harcok állnak a középpontban...
A Cisco Catalyst C1300-12XT-2X egy igazán vonzó darab a menedzselt switchek világában, főleg azoknak, akik kis helyen szeretnének komoly teljesítményt elérni...
A kolibrik és a méhek számára a napi ebédjük meglepő mellékhatással jár: az elfogyasztott nektáruk enyhén erjed, így ezek az állatok ténylegesen alkoholt isznak, miközben beporozzák a virágokat...