MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
🤔 Többek között az utóbbi évek mesterséges intelligencia (MI) hullámai mögött álló nagy nyelvi modellek (LLM-ek) néhány ponton messze elmaradnak az emberi logikai gondolkodás szintjétől...
Jellemző példa erre, hogy a Cisco több súlyos és kritikus hibát javított, köztük egy Integrated Management Controller (IMC) hitelesítés-megkerülési hibát, amellyel támadók adminisztrátori jogokat szerezhetnek...
Különösen igaz ez akkor, ha a vállalatok elhanyagolják a rendszeres frissítéseket: jelenleg több mint 14 000 F5 BIG-IP Access Policy Manager példány van közvetlenül kitéve kritikus távoli kódfuttatási (RCE) sebezhetőségnek az interneten...
Évtizedeken át kemény dió volt az 1-es típusú cukorbetegség gyógyítása, hiszen a szervezet immunrendszere megtanulta elpusztítani az inzulint termelő hasnyálmirigy-sejteket, az úgynevezett szigetsejteket...
👀 Egy lényeges szempont, hogy a generatív MI megállíthatatlanul terjed a munkahelyeken, és ezzel együtt új veszélyforrás jelent meg: az úgynevezett „árnyék MI” jelensége...
💥 A Microsoft szerdán bejelentette, hogy három vadonatúj, teljesen saját fejlesztésű MI-modellt indít el, amelyek hangfelismerésre és -átalakításra, valamint képalkotásra specializálódtak...
Több mint 12 ezer évvel ezelőtt az amerikai őslakosok már használtak dobókockákat és játszottak szerencsejátékokat – derült ki egy friss régészeti kutatásból...
💻 Az IBM stratégiai együttműködést jelentett be az Arm-mal, hogy közösen fejlesszenek új hardverarchitektúrákat, amelyek a cégek számára nagyobb rugalmasságot, megbízhatóságot és biztonságot kínálnak a következő generációs MI- és adatalapú alkalmazások futtatására...
🐋 Magasan a dél-amerikai esőerdők lombjai között a kutatók egy különös, új termeszt fedeztek fel, amely kísértetiesen egy miniatűr ámbráscetre hasonlít...
A NASA Artemis II küldetése történelmi pillanat: az űrhajósok először indulnak majd újra a Hold körüli pályára, kiemelt figyelmet fordítva arra, hogy a világűrből érkező sugárzás hogyan hat az emberi szervezetre...
Az MI-alapú toborzó startup, a Mercor megerősítette, hogy a LiteLLM-hez köthető ellátási láncbeli támadás áldozata lett – hasonlóan több ezer másik vállalkozáshoz...
Miután az Embark Studios berobbant az Arc Raiders című játékkal, komoly viták robbantak ki a stúdió által alkalmazott mesterséges intelligencia (MI) miatt...
Lényeges, hogy az új OnePlus Nord 6-ot kézbe véve nem az fogad, amit egy hatalmas, 9 000 mAh-s akkumulátorral szerelt telefon alapján várnál: a készülék meglepően könnyű és vékony, abszolút nem nevezhető téglának...
Több mint ötven év után újra amerikai asztronauták indultak a Hold felé: a NASA történelmi Artemis II missziója ragyogóan startolt el Cape Canaveralból, és lelkes nézők ezrei töltötték meg a kilövőközpont környékét...