MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
🤓 A digitalizáció rohamosan átalakítja, hogyan dolgoznak a vállalkozások minden iparágban, miközben az MI-alapú megoldások egyre mélyebben beépülnek a mindennapi munkafolyamatokba...
Különösen igaz ez akkor, ha egy olyan technológiai óriás kerül reflektorfénybe, mint a LinkedIn, amelyet most két jelentős csoportos per is célba vett...
🌵 Egymásra tornyosulnak a kockázatok a világ élelmiszer-ellátásában, miközben a meteorológusok egy soha nem látott erejű, úgynevezett szuper El Niño kialakulására figyelmeztetnek az év végére...
Ha a vevőkről van szó, gyakran felmerül a kérdés: miért ragaszkodnak egyesek annyira egy márkához, hogy akár jelentős pénzösszeg fejében sem válnának meg tőle?..
⚠ Az utóbbi hetekben jelentősen megszaporodtak azok a támadások, amelyek Iránhoz köthető hekkercsoportokra vezethetők vissza, és az Egyesült Államok kritikus infrastruktúráját veszik célba...
🕵 A legújabb támadások célpontjai az üzleti folyamatokat támogató szolgáltatók (BPO-k), ahol a hekkercsoport, az UNC6783, a vállalatok támogatási rendszerébe bejutva érzékeny adatokat szerez meg...
💧 A Galaxy S25 Ultra mostantól Ocean móddal vadonatúj, víz alatti fotózási élményt hoz, amit eleinte csak korallzátonyokon búvárkodó óceánkutatók használhattak...
A Bitcoin egyik vezető fejlesztője, Olaoluwa „Roasbeef” Osuntokun most először bemutatott egy működő prototípust, amely vészhelyzeti frissítés esetén megmentheti a felhasználók pénztárcáit, ha a hálózatot valaha kvantumszámítógépes támadás ellen kellene védeni...
👶 Tudósok most először készítettek részletes térképet a méhlepény és a méh felépítéséről, amely megmutatja, miként alakulnak át ezek a szövetek a terhesség során, hogy a fejlődő embriót támogassák...
Május 20-tól az Amazon a 2012 előtt gyártott Kindle-olvasókat jegeli: ezekkel a kütyükkel többé nem lehet új könyvet vásárolni, kölcsönözni vagy akár letölteni...
A Bitcoin egyik vezető fejlesztője, Olaoluwa “Roasbeef” Osuntokun különleges mentőeszközt készített, amely végső védelmet nyújthat, ha a Bitcoin közösségének valaha is kvantumszámítógépekkel kellene szembenéznie...
Na most kapaszkodj, mert hamarosan rejtetté teheted azokat a játékokat az Xbox achievement-listádban, amikre már nem vagy büszke, vagy csak félig sikerült kipörgetned...
Oké, minden, amit eddig gondoltál a kézi ventilátorokról, mehet a kukába – a Dyson bemutatta a HushJet Mini Cool nevű újdonságát, aminek brutális, 65 000-es fordulatszámú motorja van...
A jelenlegi autonóm MI-ügynökök legnagyobb kihívásai közé tartozik, hogy miként tudnak alkalmazkodni a folyamatosan változó környezetükhöz anélkül, hogy minden alkalommal újra kellene tanítani a mögöttes nagy nyelvi modellt...
Többek között az Apple hajlítható mobilja körül is pezsegnek a pletykák, nem véletlenül: ahogy közeledik a szeptemberi bemutató, a netet elárasztják a látványos hamisítványok – köztük egy videó, amelyen mintha a régóta várt iPhone Fold bontására kerülne sor...