MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
A Sundance Filmfesztiválon bemutatott Szellem a gépben (Ghost in the Machine) dokumentumfilm kemény állítást fogalmaz meg: a mesterséges intelligencia terjedése és maga a Szilícium-völgy eugenikai (fajnemesítési) gyökerekből táplálkozik...
A legfrissebb jelentés szerint az Apple történetének eddigi legjobb negyedévét produkálta: a cég összbevétele csaknem 1437 milliárd forintot (143,76 milliárd USD) ért el...
Az amerikai űrügynökség, a NASA rendkívüli hangsúlyt fektet az űrhajósok biztonságára, miután a múlt hónapban egy négyfős legénységet kellett idő előtt visszahozni a Nemzetközi Űrállomásról egy ismeretlen eredetű egészségügyi probléma miatt...
😱 Az új év alig kezdődött el, máris két súlyos, kihasznált nulladik napi sérülékenységet kellett befoltoznia az Ivantinak az Endpoint Manager Mobile (EPMM) termékében...
💔 A hollywoodi közösség és rajongók világszerte megrendülten fogadták a hírt, hogy Catherine O’Hara, a komédia egyik legnagyobb alakja 71 évesen elhunyt Los Angeles-i otthonában egy rövid betegség következtében...
A részvénypiac lejtmenete után sok múlik a következő hét óriáscégein. Bár az S&P 500 három napig gyengült, ezek a visszafogott zárások még jót is tehetnek – főleg, ha az előttünk álló gyorsjelentési hullám nagy nevei jól teljesítenek...
A brit vasút történetében új korszak kezdődik: London nyugati részén elindul az első olyan vonat, amely kizárólag akkumulátorral üzemel, és rekordgyorsasággal, mindössze három és fél perc alatt feltölthető...
Október 10-én soha nem látott mélyrepülés sújtotta a kriptopiacokat. A Bitcoin és az Ethereum hónapokig tartó emelkedése után a piac túlfűtötté vált, masszív tőkeáttéttel, amikor váratlan, globális sokk érte...
A Tether, a világ legnépszerűbb stabilcoinját kibocsátó vállalat 2025-öt elképesztő eredményekkel zárta: éves nyeresége meghaladta a 10 milliárd dollárt (kb...
Ebből következően érdemes megérteni, miben különbözik a Moltbot a korábbi digitális asszisztensektől, és milyen forradalmi lehetőségeket rejt a mindennapi felhasználók számára...
💸 2025-ben minden eddiginél több, összesen 158 milliárd dollárnyi (kb. 58 ezermilliárd forint) illegális forrásból származó összeg futott be kriptotárcákba, megfordítva az elmúlt három év csökkenő trendjét...
🚀 Érdemes megvizsgálni, miért döntött úgy a Blue Origin, hogy két évre szünetelteti – feltehetően végleg leállítja – a New Shepard szuborbitális űrturisztikai programját...
👑 A Google legújabb fejlesztése, a Project Genie végre külső felhasználók számára is elérhetővé teszi a Genie 3 nevű MI-világmodellt, amellyel bárki saját, 3D-s interaktív világokat alkothat...
A NASA történelmet írt, amikor a Perseverance marsjárót mesterséges intelligencia segítségével irányította át a Jezero-kráter egy veszélyes szakaszán...
A Rivian bemutatott egy különleges elektromos mentőautót, amelyet kifejezetten a népszerű A Grace klinika (Grey’s Anatomy) sorozat számára alakított át...
Felmerül a kérdés, hogy miért éppen az Nvidia Shield TV lett az az Android-alapú eszköz, amely tíz év elteltével is példátlan szoftvertámogatást élvez...
🍴 Az Eli Lilly hamarosan piacra dobja új, szájon át szedhető elhízás elleni gyógyszerét, az orforglipront, amely a szakértők szerint átalakíthatja az elhízás kezelésének piacát...
💡 A Samsung Galaxy S26 Ultra előzetes naplófájljai alapján úgy tűnik, hogy a cég végre támogatja az Android Linux-terminál funkcióját, amelyre tavaly sokan hiába vártak a Galaxy S25 Ultra esetében...