MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
🔒 A Mullvad VPN saját WireGuard-protokolljának, a GotaTunnak független biztonsági auditja semmilyen jelentős sebezhetőséget nem talált, így a felhasználók most már fellélegezhetnek...
🕵 Az utóbbi napokban az FBI kibervédelmi rendszereiben olyan behatolást fedeztek fel, amely a drótlehallgatáshoz és a megfigyeléshez köthető hálózatokat érintette...
Az amerikai Roundhill Investments egyre népszerűbb tematikus alapjairól ismert: sportfogadás, fogyókúrás gyógyszerek, önvezető autók és a metaverzum – mind külön tőzsdén kereskedett alapban (ETF) futnak náluk...
Az Nscale nevű brit startup mindössze egy év alatt kulcsszereplővé vált az MI-infrastruktúra piacán, miután újabb 2 milliárd dollár, vagyis közel 720 milliárd forint forrást vont be...
🚗 Az autósok Amerikában újabb, még súlyosabb üzemanyagáremelkedésre készülhetnek, ahogy az olajárak példátlan ugrást produkáltak egyik napról a másikra...
Különös dinoszauruszcsontváz került elő Argentínából: az Alnashetri cerropoliciensis nevű, alig 700 grammos állat megdönti a korábbi elméleteket a miniatűr, rovarevő őshüllők fejlődéséről...
Felmerül a kérdés, mennyire változik Kínában a fogyasztói árak helyzete, miután februárban az infláció nagyobb mértékű növekedést mutatott, mint bármikor az elmúlt három évben...
Egy ausztrál cég, a Cortical Labs, sikeresen összekötött nagyjából 200 ezer élő emberi agysejtet egy szilíciumlapkával, hogy azok elboldoguljanak a legendás Doom játékban...
💡 A kétdimenziós anyagok különleges elektronikai és mágneses tulajdonságaik miatt komoly figyelmet kapnak, hiszen ezek a jövő technológiáit is forradalmasíthatják...
A Bitcoin ára egyelőre stabilan 67 000 dollár (kb. 24,3 millió Ft) körül mozog, miközben a világ tőzsdéin komoly eladási hullámok indultak, az olaj ára meghaladta a 100 dollárt (36 ezer Ft) hordónként, és az USA-dollár egy éve nem látott erősödést produkált...
A depresszió világszerte az egyik vezető egészségügyi probléma, nem véletlen, hogy az érintettek mintegy 30 százaléka a hagyományos antidepresszánsokra sem reagál...
📈 Dél-Koreában a Kospi index hétfő délelőtt négy napon belül másodszor aktiválta a kereskedést felfüggesztő automatizmust, amikor a piac több mint 8 százalékot zuhant, miután az olajár hordónként közel 120 dollárig (kb...
Az Európai Unió Bíróságának főtanácsnoka, Athanasios Rantos szerint a pénzintézeteknek haladéktalanul vissza kell téríteniük azokat a számlatulajdonosokat, akik jogosulatlan tranzakciók áldozatai lettek – akkor is, ha ebben részben saját hibájuk is közrejátszott...
A Laser Interferometer Gravitational-Wave Observatory (LIGO) példátlan módon először a téridő hullámain keresztül érzékelte az ütköző fekete lyukakat...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Castle Zombiestein – 3D FPS (iPhone/iPad)A Zombiestein egy fizikára épülő akciójáték, melynek főhőse Yuri “Tarzan” Agron, az orosz Spetsnaz elit katonája...