MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
filózó
Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?
A 2026-os férfi országúti kerékpáros idény bővelkedik lenyűgöző versenyekben és győzelmekben, a soron következő Giro d’Italia, amely idén Bulgáriában rajtol, pedig máris lázban tartja a csapatokat...
A kriptopiac a május első hetében igazi izgalmakat tartogat. Három fontos próbatétel közeleg: az amerikai foglalkoztatási adatok publikálása, a legnagyobb tőzsdék és bányászvállalatok eredményjelentései, valamint döntő szavazások több decentralizált szervezetben...
Ez a jelenség jól illusztrálható azzal, milyen tempóban fejlődnek az otthoni hálózati adattárolók: míg néhány éve a terabájtos RAID-tömbök, a PCIe-bővítés vagy a villámgyors Thunderbolt csak vállalati környezetben volt elérhető, ma már egy átlagos otthoni NAS is ilyen extrákkal kecsegtet...
A cukorbetegség és elhízás kezelésére szolgáló gyógyszerek, mint az Ozempic és a Wegovy, nem várt pozitív hatásokat hordozhatnak a mentális egészségre is...
Túlgondolt hajápolási rutin helyett néhány szokás kis megváltoztatása látványosan egészségesebbé és fényesebbé varázsolja a hajad — ráadásul nincs szükség drága hajszárítóra vagy formázóra sem...
🔴 Egy átfogó nemzetközi vizsgálat kimutatta, hogy az Alzheimer-kór kezelésére fejlesztett szerek, amelyek az agyban felhalmozódó amiloid-béta fehérjét célozzák, nagy valószínűséggel nem hoznak valódi javulást a betegek életében...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. PostalCal (iPhone/iPad)A Postal Employee Day Off Calendar egy könnyen kezelhető, kifejezetten az Amerikai Postaszolgálat munkatársai és családjaik számára készült naptáralkalmazás...
Az Amnezia VPN legújabb, 4.8.15-ös verziója minden nagyobb operációs rendszeren elérhető, és egyszerre hoz jelentős hibajavításokat, kiemelten fontos biztonsági frissítést, valamint számos felhasználóbarát újítást...
💀 Matt Firor, a ZeniMax Online Studios alapítója elég markánsan emlékszik vissza arra a napra, amikor egy húzással két nagy stúdiót, a Tango Gameworksöt és az Arkane Austint is bezárták az Xboxnál...
A régi házakban vagy pincékben sokan titokzatos, megmagyarázhatatlan nyugtalanságot éreznek, akár anélkül, hogy bármi szokatlant látnának vagy hallanának...
Az 1990-es években a Marvel világa nyitott a videojáték-fejlesztés felé, de hőseinek és gonosztevőinek kezelése terén minden apró részletre odafigyelt...
A malária nemcsak megtizedelte őseinket, hanem döntően befolyásolta, hol élhettek, hogyan alakultak közösségeik és végső soron miként jutottunk el idáig...
Whitney Leavitt, aki A mormon feleségek titkos élete (Secret Lives of Mormon Wives) egyik főszereplője, váratlanul jelentette be távozását a népszerű Hulu-sorozatból – épp a Broadwayn futó, nagysikerű Chicago (Chicago) előadásán, vasárnap este...
💀 Olivia Wilde legutóbbi vörös szőnyeges megjelenésével nem kis riadalmat keltett: igencsak furcsán festett a San Francisco-i Nemzetközi Filmfesztiválon, ahol új filmjét, A meghívót (The Invite) népszerűsítette...
A Connections mai kihívása komoly fejtörést okozott a játékosoknak. Tizenhat szó közül kell megtalálni azokat a négyes csoportokat, amelyek valamilyen témában összetartoznak...
💰 A nagybankok – köztük a Morgan Stanley – egyre komolyabban foglalkoznak a digitális eszközök piacával, miután nő az ügyféloldali igény a Bitcoin iránt...