MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
filózó
Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?
🔒 Érdemes megvizsgálni, hogy forradalmi gyorsasággal terjednek az ügynökalapú MI-eszközök a nyílt forrású fejlesztések világában, amelyekkel akár egyetlen parancs is megkerülheti a teljes biztonsági védvonalakat...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Rhythmicity Rhythm Trainer (iPhone/iPad)A Rhythm Trainer by Rhythmicity egy fizika alapú gyakorlóalkalmazás, amelyet zenészek, diákok és tanárok használnak...
🚀 Elon Musk ambiciózus terve, hogy embereket telepítsen a Marsra, ismét a figyelem középpontjába került, amikor Greg Brockman, az OpenAI elnöke a bíróságon tanúskodott az OpenAI jövőjét is meghatározó per egyik kulcsszereplőjeként...
💻 Hihetetlen, de mégis igaz, hogy egy lelkes PC-rajongó nemrégiben egy szoba méretű gamer PC-t épített, ami messze túlmutat minden eddigi moddoláson...
Egy kevéssé ismert miami startup, a Subquadratic, nem mindennapi bejelentéssel rukkolt elő: állításuk szerint sikerült elsőként feloldaniuk azt a matematikai akadályt, amely 2017 óta meghatározza és egyben korlátozza a legtöbb fejlett MI-rendszert...
A Michael Saylor által vezetett MicroStrategy 12,54 milliárd dolláros (kb. 4 350 milliárd forintos) negyedéves veszteséget jelentett, miközben 818 334 darab bitcoint birtokol – darabonként átlagosan 75 537 dolláros (kb...
Az elmúlt években robbanásszerűen gyorsult fel a blokklánc-technológia terjedése, amelynek egyik legnagyobb úttörője, az Ethereum társalapítója, Joseph Lubin szerint már nem kérdés, hanem adottság: a világgazdaság teljes tokenizációja elkerülhetetlenné vált...
👊 Greg Brockman, az OpenAI elnöke tanúskodott egy kaliforniai bíróság előtt, ahol elmondta, hogy 2017-ben Elon Musk annyira dühös lett, hogy komolyan attól tartott, a milliárdos megüti...
Az űrutazás jövője új fordulatot vehet, miután egy brazil kozmológus véletlenül olyan módszert fedezett fel, amely alaposan lerövidítheti a Mars-expedíciók menetidejét...
🌳 Tavasszal az erdőben minden az időzítésen múlik. A hernyók és más rovarok éppen akkor kelnek ki, amikor a friss, zsenge levelek a legtöbb tápanyagot tartalmazzák...
A James Webb-űrtávcső újabb döbbenetes felfedezést tett: a közeli, vörös törpecsillag körül keringő LHS 3844 b nevű exobolygó felszíni összetételét részletesen feltérképezték...
A legendás Seamus Blackley, aki fejlesztőként és tervezőként nagy sikereket ért el a videojátékiparban, most egészen más területen villantotta meg kreativitását...
Az elmúlt hónapok igazi hullámvasútként teltek a Subnautica 2 fejlesztőcsapatának: pereskedés, bizonytalanság, szervezeti változások színesítették a mindennapokat...
❤️ Ez a jelenség jól illusztrálható azzal, hogy a szakemberek eddig főként a magas pulzust tartották kockázatosnak, most viszont nagyszabású kutatás derítette ki: a túl alacsony és a túl magas nyugalmi pulzus egyaránt összefügghet a stroke kockázatának növekedésével...
Mai időutazásunkon átszáguldunk a reformációtól a modern pénzpiaci sokkig: az angol Biblia-templomprogramtól és a Penny Black indulásától a Hindenburg-katasztrófáig és a skót–walesi önkormányzatiság megszületéséig...
Wall Street és a kriptovilág vezetői egyre komolyabb kihívást látnak abban, hogy a modern pénzügyi piacok az emberi tempó helyett már éjjel-nappal gépek által vezérelt, automatizált rendszerekre támaszkodnak...