MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
A Walmart piaci értéke átlépte az 1 billió dolláros, vagyis 370 000 milliárd forintos határt, ezzel az amerikai kiskereskedelmi lánc bejutott a legértékesebb cégek szűk körébe, amelyet eddig főként techóriások uraltak...
Az amerikai Igazságügyi Minisztérium (DOJ) újabb fellebbezést nyújtott be a Google ellen indított versenyjogi perben, amely az internetes kereső- és hirdetési piac monopolhelyzetéről szól...
Az MI térhódítása az Android-eszközökön megállíthatatlanul halad előre, és a Gemini hamarosan olyan funkciókat kap, amelyekkel akár teljesen átveheti az irányítást a telefonod felett...
👀 Az amerikai közegészségügy történetének egyik legnagyobb válságát éli. A Centers for Disease Control and Prevention (CDC) évtizedeken át a megbízható, bizonyítékalapú egészségügyi iránymutatás és a járványügyi védelem csúcsintézménye volt...
Hatalmas változás előtt áll a PayPal: Enrique Lores veszi át az irányítást, miután a társaság vezetése elégedetlen volt a korábbi vezérigazgató, Alex Chriss teljesítményével...
Erre utal többek között az, hogy a 2024 YR4 nevű, épületméretű aszteroida 4,3%-os eséllyel csapódhat a Holdba 2032 decemberében, a becsapódás pedig akár szabad szemmel is megfigyelhető, látványos fényjelenséget eredményezhet...
Az amerikai Igazságügyi Minisztérium (DOJ) és több állam fellebbezést nyújtottak be, hogy még szigorúbb szankciókat érjenek el a Google ellen, miután a bíróság formálisan is megállapította a techcég monopolhelyzetét a keresőszolgáltatások terén...
A Google kiadta a 2026. februári frissítést a támogatott Pixel-telefonokra, ám ezúttal nem érdemes nagy újdonságokra vagy régóta várt javításokra számítani...
🌿 A növények saját védelmük érdekében kémiai fegyvereket gyártanak, köztük olyan alkaloidokat, mint a koffein és a nikotin, amelyeket az emberiség is felhasznál fájdalomcsillapításra, betegségek kezelésére és a mindennapokban...
A mobiltelefon szinte nélkülözhetetlenné vált a mai tüntetéseken: ezzel szervezkedünk, kommunikálunk, valamint dokumentáljuk a rendőri túlkapásokat vagy más jogsértéseket...
💸 Fontos kérdés, hogy a Netflix és a Warner Bros. Discovery (WBD) egyesülése valóban az előfizetők javát szolgálná-e, vagy ismét áremelkedések várhatóak...
A francia rendőrség ma razziázott az X (korábban Twitter) párizsi irodájában, miközben Elon Muskot is beidézték kihallgatásra egy illegális tartalmak miatt folyó nyomozásban...
Az ultrafeldolgozott élelmiszereket (UPF) sokkal szigorúbban kellene szabályozni – erre figyelmeztet egy friss kutatás, amely párhuzamot von ezek és a cigaretta között...
Az 1840-es években Semmelweis Ignác, magyar orvos megfigyelte, hogy ugyanabban a kórházban, ahol orvosok vezették le a szüléseket, akár 35% volt az anyák halálozási aránya, míg a bábák által vezetett szüléseknél ez 4% alatt maradt...
💸 Kedden viharos napot éltek át a kriptobefektetők: a bitcoin 14 hónapos mélypontra zuhant, majd hirtelen visszakapaszkodott 76 800 dollár fölé (több mint 27,5 millió forint), mielőtt ismét gyengülni kezdett volna...