MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
A Nintendo évekkel ezelőtt eltemette a Virtual Console-t, vagyis azt a lehetőséget, hogy klasszikus játékokat töltsünk le egyenként a Wii-re vagy a Wii U-ra...
A programozásban járatlanok ma már képesek saját alkalmazást készíteni, köszönhetően a vibe-coding megoldásoknak, például a Lovable-nek, amelyek hétköznapi nyelvű leírásból működő kódot generálnak...
🔎 A mesterséges intelligencia és a fejlett számítástechnika már ma képes olyan genetikai szekvenciákat tervezni, amelyek változatos biológiai alkalmazásokat tesznek lehetővé...
A NASA új szabályozásának köszönhetően az űrhajósok a közelgő Crew-12 és Artemis II küldetések során már magukkal vihetik iPhone-jaikat, illetve más modern okostelefonokat az űrbe és a Holdra is...
A kiberbűnözők új trükkel szálltak be a ransomware-piacra: egy legitim szolgáltató, az ISPsystem virtuális gépein keresztül terjesztik a kártékony programokat...
🕵 Évszázados rejtély, hogy miért vannak a Marson víz jelenlétére utaló nyomok, miközben a bolygó sosem volt elég meleg, hogy tartósan folyékony víz maradjon rajta...
🔧 Az OpenAI bemutatta legújabb fejlesztését, a GPT-5.3-Codex nevű MI-modellt, amely messze felülmúlja a konkurens rendszereket kódolási teljesítményben és megbízhatóságban...
Az MI-alapú keresésben látja a Reddit a jövő üzleti lehetőségét. A vállalat szerint az MI által támogatott kereső túlszárnyalhatja a jelenlegi megoldásokat, mert ott is hatékony válaszokat tud adni, ahol hivatalos válasz nem létezik – elvégre a Reddit erőssége mindig is az volt, hogy egy kérdésre rengeteg különböző vélemény érkezhet sok felhasználótól...
Kanzi, a különleges nyelvet értő bonobó valódi meglepetést okozott a kutatóknak azzal, hogy képes volt színlelt játékban részt venni, és fejben nyomon követni kitalált tárgyakat – éppúgy, ahogy a kisgyerekek teszik...
🕵 Az ázsiai államhoz köthető kiberkémkedő csoport csendben kompromittálta több mint 37 ország kormányzati rendszereit és kritikus infrastruktúráit, és több mint 70 szervezetbe jutott be sikeresen...
Az elmúlt héten újabb zuhanás rázta meg a szoftver- és adatszolgáltatók részvényeit, miután az Anthropic frissen bemutatott MI-eszközei komoly hullámokat keltettek a piacon...
🐒 Kanzi, a világhírű bonobó különleges képességekkel rendelkezett: képes volt szimbólumok segítségével kommunikálni, sőt, megértette az emberi viselkedés és a színlelt cselekvések közötti különbséget...
🛈 Nagy változás várható a Microsoft felhőalapú levelezésében: 2027 áprilisában végleg leáll az Exchange Web Services (EWS) API az Exchange Online szolgáltatásban...
⚠ Conpet, Románia országos olajvezeték-üzemeltetője kedden kibertámadást jelentett, amely miatt leállt a vállalat weboldala és több üzleti IT-rendszere...
A Volkswagen átvette Európa vezető elektromosautó-gyártója címét a Teslától 2025-ben. Az adatok szerint a Volkswagen elektromos autóinak eladásai 56%-kal nőttek az előző évhez képest, különösen az új ID...