MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
💸 Hiába múltak el a makrogazdasági feszültségek a közel-keleti konfliktus kapcsán, most újabb egzisztenciális fenyegetés rémíti a kriptopiacot: a kvantumszámítógépek gyorsabb fejlődése...
🛡 Egyre kifinomultabb módszerek jelennek meg a digitális fenyegetések terén, amelyek a támadóknak szinte észrevétlenül biztosítanak hozzáférést belső rendszerekhez...
Ma már egyáltalán nem szokatlan, hogy egymástól látszólag távoli cégek, mint a ScottsMiracle-Gro és a Clinique, hasonló stratégiával szólítják meg a vásárlókat...
⚡ Az Egyesült Államok távközlési hatósága, az FCC új szabályokat vezet be, amelyek célja, hogy gyorsabban válthassanak a szolgáltatók korszerű, nagy sebességű hálózatokra...
A Microsoft most komolyan belevágott abba, hogy a Windows 11-re szánt új alkalmazásokat száz százalékban natívan fejlessze, vagyis tényleg a rendszerhez igazodva építse meg őket, nem pedig webes keretben futtassa...
A NASA új fejezetet ír az űrkutatásban, hiszen hónapok előkészítő munkája után most végre elindult a visszaszámlálás a történelmi Artemis II Hold-misszióhoz...
A laborélet egy újabb csavart kap: kiderült, hogy még a legprofibb kutatók is rendre beleszaladnak egy bosszantó hibába, amikor a környezetből vett mintáikban mikroműanyagokra vadásznak...
🙁 Jó, jó, persze, csak épp közben újabb baljós hullám söpör végig a gamer világon: az Eidos Montréal 124 dolgozójától válik meg, még a főnök, David Anfossi is állás nélkül marad...
Sokan még ma is azt gondolják, hogy a jó fejhallgató bizony mélyen a pénztárcába nyúl, pedig az utóbbi években igencsak felzárkóztak a pénztárcabarát darabok...
Az Apple legújabb belépő szintű laptopja, a MacBook Neo komoly meglepetést hoz a piacon: iPhone-ból átemelt A18 Pro chip dolgozik benne, miközben az élmény sokkal többet nyújt az alap MacBookoknál, pénztárcabarát áron...
🕵 Miközben az MI egyre inkább beépül mindennapjainkba, munkahelyeinkre és online kommunikációnkba, egy új kutatás szerint jobb, ha személyes vagy érzelmi problémáinkra nem tőle várjuk a választ...
😴 Felmerül a kérdés, hogy miért képes a mélyalvás annyira felpörgetni testünket és agyunkat, hogy nemcsak kipihentnek érezzük magunkat, hanem erősebbek, magasabbak, karcsúbbak, sőt akár élesebb gondolkodásúak is leszünk tőle...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Slayaway Camp (iPhone/iPad)A Slayaway Camp egy sötét humorú, 80-as évekbeli horrorfilmekre emlékeztető logikai játék...
💰 A Meta új előfizetéses szolgáltatást tesztel az Instagramon, amely exkluzív funkciókat kínál a felhasználóknak, például 24 óránál tovább látható sztorikat...
💧 A Drexel Egyetem kutatócsoportja alapjaiban forgatta fel a folyadékok fizikájával kapcsolatos eddigi elképzeléseket: egy hétköznapi folyadékot nyújtva olyan erős szakítóhatást fejtettek ki rá, amelynél úgy tört el, mint egy szilárd anyag...
🚀 A legújabb Samsung Galaxy S26-széria múlt héten már megkapta a várva várt AirDrop-támogatást a Quick Share szolgáltatáson keresztül, de úgy tűnik, hogy a funkció hamarosan elérhető lehet más készülékeken is...
A fejlesztők gyakran kínálnak különféle trükköket az utazás közben fellépő rosszullét ellen, de a Samsung most egy egészen új megközelítéssel állt elő: a Galaxy-telefonokra letölthető Hearapy alkalmazás hanghullámokkal veszi fel a harcot a mozgás okozta panaszok ellen...