MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
🚀 A DJI legfrissebb dobása, az Avata 360 drón nemcsak a panorámadrónozás világát forgatja fel, hanem az otthoni filmezés, vlogolás és kalandvideók piacát is...
Az Intel hosszú várakozás után bemutatta új grafikus kártyáját, az Arc Pro B70-et, amely a régóta pletykált Big Battlemage GPU-ra épül, ám ezúttal nem a játékosokat, hanem az MI-alkalmazásokat célozza meg...
Zágráb utcáira érkezik az Uber és a kínai Pony.ai közös robotaxi-szolgáltatása, amelyet egy horvát cég, a Verne fog össze – ők gondoskodnak a teljes működési rendszer kiépítéséről...
Érdemes megvizsgálni, milyen változások várhatók a Samsung következő generációs mobilchipjénél. Az Exynos 2800 koncepciója mostanra körvonalazódik, és úgy tűnik, a vállalat ezúttal a stabilitást helyezi előtérbe a Galaxy S28 szériánál...
Fontos megérteni, hogy az utóbbi napokban tömeges támadássorozat indult a Magento Open Source és az Adobe Commerce rendszereket érintő, súlyos PolyShell-sebezhetőség kihasználására...
🔧 A Samsung Galaxy A57 5G-t már a bemutató előtt, néhány órával szét is szedték, és ami a leginkább feltűnő: a telefont végre a könnyű javíthatóság jegyében tervezték...
💸 Egy amerikai esküdtszék történelmi döntése értelmében a Meta és a YouTube összesen 6 millió dollár (közel 2,2 milliárd forint) kártérítést köteles fizetni egy ma 20 éves fiatal nőnek és édesanyjának...
🚀 Érdekes felvetés, hogy mi lesz a sorsa annak a több milliárd dollárért fejlesztett Hold körüli űrállomásnak, amelynek építését az Egyesült Államok most jegeli, hogy az erőforrásokat inkább más, nagyobb szabású célokra összpontosítsa...
A Ring új szintre emelte kültéri biztonsági eszközeit: elérhetővé váltak a vezeték nélküli, akkumulátoros verziók a 4K-s és 2K-s felbontású videócsengőkből is, már 29 000 Ft-tól...
💸 A kaliforniai bíróság most tényleg odacsapott: két techóriást, a Metát és a Google-t is felelőssé tették, amiért addiktív dizájnnal szippantották be a fiatalokat...
A dróntechnológia új korszakába lépett, amikor a BRINC bemutatta legújabb fejlesztését, a Guardian nevű, kifejezetten rendőrségi célokra szánt drónt...
😴 Éjszaka nemcsak testünk pihen, agyunk is különös utakat jár be. Egy friss kutatás szerint ugyanis a színes, élénk álmok nem csupán szórakoztatnak, hanem hozzájárulhatnak ahhoz is, hogy reggel valóban kipihentnek érezzük magunkat — sőt, az intenzív álmodás azoknak az éjszakáknak a titka, amikor a legmélyebbnek érezzük az alvást, függetlenül attól, mennyire aktív maradt közben az...
Az Apple évek óta kivár a mobilkamerák terén, de most végre felrázhatja a piacot: tesztelés alatt áll egy 200 megapixeles főkamera, amely nagyobb lehet, mint a Samsung Galaxy S26 Ultra 200 megapixeles érzékelője...
💬 Fontos kérdés, hogy mi történik akkor, amikor a tudományos élet válságba kerül, és azok is távoznak, akik egyszer a kutatás iránti elkötelezettséget mindennél előbbre valónak tartották...
Ilyen eset például, amikor a csalók nem valódi telefonokat, hanem virtuális okostelefonokat használnak, hogy teljesen hiteles felhasználónak tűnjenek...
Egy új, folyamatosan fejlődő kártevő, a Torg Grabber már 850 böngészőbővítményből képes érzékeny adatokat ellopni, ebből 728 kifejezetten kriptopénztárcákhoz kapcsolódik...
🔬 Az elmúlt évtizedekben a tömegspektrometria alapvető eszközzé vált a tudományos kutatásban, ám a technika egyik legnagyobb korlátja, hogy a legtöbb jelenleg használt műszer egyszerre csak néhány molekulát képes elemezni...
🛑 A szoftverellátási lánc sebezhetőségei eddig főként kártevők és zsarolóvírusok révén kerültek be a köztudatba, azonban most egy lényegesen egyszerűbb módszer is elérhetővé vált a támadóknak: rosszindulatú vagy hamisított API-dokumentációval is megvezethetők az MI-alapú kódoló ügynökök...
A bűnözők legújabb trükkje, hogy a Bubble nevű, no-code, MI-alapú alkalmazáskészítő platformot használják Microsoft-fiókok elleni adathalász támadásokhoz...
👤 A Reddit új lépést tett a gyanús aktivitás kiszűrésére: hamarosan arra kötelezi azokat a fiókokat, amelyek automatizált vagy egyébként gépies viselkedést mutatnak, hogy igazolják, valóban ember kezeli őket...