MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
Hatalmas vihart kavart az Egyesült Államokban, hogy egy szövetségi esküdtszék illegális monopóliumnak minősítette a Live Nationt és leányvállalatát, a Ticketmastert...
🌊 Na most kapaszkodj, mert az Opera böngésző most már valós időben összeköti a böngészőablakodat a legnépszerűbb AI-csevegőkkel, így jelentősen felpörgeti a böngészési élményt...
Tipikus eset, amikor a tudományos világ évtizedeken át vitatkozik egyetlen lelet jelentőségéről, míg végül egy elfeledett apró csont választ ad a nagy kérdésre...
🌍 Évmilliárdokkal ezelőtt a Föld kérge alatt zajló események máig éreztetik hatásukat: a legújabb kutatások szerint a ritkaföldfémek nem véletlenszerűen, hanem egy igen speciális földtani folyamat eredményeképpen koncentrálódnak bizonyos helyeken...
🔒 Egy frissen felfedezett biztonsági rés teljes szerverátvételre ad lehetőséget az Nginx UI felületén keresztül, mégpedig mindenféle hitelesítés nélkül...
🔴 Egy átfogó, közel húszéves kutatás több mint 650 ezer irritábilis bél szindrómával (IBS) élő amerikai egészségügyi adatait vizsgálta meg, és aggodalmakat vet fel a sokszor rutinszerűen alkalmazott gyógyszerek hosszú távú biztonságával kapcsolatban...
Az elmúlt évtizedek legnagyobb és legalaposabb kozmológiai vizsgálata készült el, amely meglepő következtetéseket hozott: továbbra sem értjük igazán, mi gyorsítja az univerzum tágulását...
Frissen tartod a szerveredet? Jobb, ha kétszer is ellenőrzöd: a legújabb, áprilisi Windows Server 2025 biztonsági frissítés ugyanis nem mindenkinek hajlandó feltelepülni...
💰 Felmerül a kérdés, hogy a digitális eszközök valóban forradalmasítják-e a pénzügyi rendszert, különösen most, hogy a Ripple, az egyik legismertebb blokklánc-vállalat partnerségre lépett Dél-Korea egyik legnagyobb életbiztosítójával, a Kyobo Life-fal...
📺 Az A sír mélyéig (As Deep as the Grave) című film első előzetese hatalmas felháborodást váltott ki az interneten, miután kiderült: a készítők teljes egészében MI-vel generált Val Kilmer-digitális hasonmást szerepeltetnek a történetben...
🧐 A tavasz mindig próbára teszi azokat, akik érzékenyek a virágporra: idén csaknem 80 millió amerikai számíthat tüsszentésre, orrfolyásra vagy köhögésre allergiás reakció miatt...
Az élővilágban folyamatos fegyverkezési verseny zajlik a fajok között, amelyek mind újabb és újabb eszközökkel próbálnak felülkerekedni ellenfeleiken...
Erre utal többek között az is, hogy a norvég homárok különösen érzékenyen reagálnak az elektromos áramra: a legfrissebb tudományos vizsgálatok szerint a humán fájdalomcsillapítók, például az aszpirin és a lidokain jelentősen csökkentik a homárok menekülési reakcióit, amikor áramütés éri őket...
🚀 A Vodafone–Three most zöld lámpát kapott az egyesült királyságbeli távközlési hatóságtól (Ofcom), hogy műholdas technológiával közvetlenül jelet sugározhasson a telefonodra – normál okostelefonokra, mindenféle extra kütyü nélkül...
Ez a jelenség jól illusztrálható azzal, hogy Kínában már kapható egy humanoid robot, amely önállóan boldogul a háztartási munkákkal – az ágyazástól a reggeli készítéséig...