MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 15:33

Az Apple TV új sztárja: a Pluribus mindent visz

🎬 Most már hivatalos: a Vince Gilligan (Totál szívás [Breaking Bad]) által jegyzett Pluribus minden korábbi sikert felülmúlt az Apple TV+-on, még a legendás Ted Lasso és a Különválás (Severance) nézettségét is lekörözve...

MA 15:17

Az új React2Shell-hullámhoz sorra csatlakoznak a kínai hackercsoportok

A közelmúltban a Google fenyegetéselemző csapata további öt kínai hackercsoportot azonosított, amelyek a „React2Shell” nevű, rendkívül súlyos távoli kódfuttatási sebezhetőséget kihasználó támadásokhoz kapcsolódnak...

MA 15:04

Az új Leica M EV1: a távmérő bűvölete helyett kíméletlen praktikum

Erre utal többek között az, hogy a Leica legújabb M sorozatú fényképezőgépe, az M EV1, jelentős változtatást hoz a legendás rendszerbe: a jól ismert optikai távmérőt modern elektronikus kereső (EVF) váltja...

MA 14:50

Az XRP ETF-ek dacolnak a kriptópánikkal

Az utóbbi időszakban, amikor a Bitcoin- és Ethereum-ETF-ekből jelentős összegeket vontak ki, az XRP ETF-ek minden napra újabb pénzbeáramlást könyvelhettek el...

MA 14:35

A Kindle új trükkje: a könyv, ami visszabeszél

Az Amazon bemutatta a Kindle alkalmazás új MI-alapú funkcióját, amelynek segítségével olvasás közben bármilyen kérdésre választ kaphatsz a könyv tartalmával kapcsolatban – anélkül, hogy spoilerekkel elrontaná az olvasás élményét...

MA 14:18

Az Apple ajándékkártyája pokollá tette a digitális életünket

Hihetetlen, de mégis igaz, hogy egy közel harmincéves Apple-rajongó mindenét elvesztette egyetlen ajándékkártya miatt...

MA 14:02

Az amerikai bankok ajtót nyitnak a kriptocégeknek

🔑 Az Egyesült Államokban új korszak kezdődik a kriptovaluták és a hagyományos pénzintézetek együttműködésében...

MA 13:49

A hajszálon múlt a Starlink és egy kínai műhold ütközése

Az elmúlt héten mindössze néhány száz méteren múlt, hogy nem ütközött össze egy frissen pályára állított kínai műhold és a mintegy 9000 alacsony Föld körüli pályán keringő Starlink-műhold egyikével...

MA 13:33

Az MI-óriás bajban: milliárdos bírság fenyegeti a Microsoftot

A Microsoft ismét bíróság elé került az Egyesült Királyságban, miután több tízezer szervezetet érhetett jelentős anyagi kár a felhőalapú szoftverlicencelés miatt...

MA 13:17

Az iRobot bukása: a Roomba végül csak egy porszívó lett

🧺 Kevés amerikai techsztori volt olyan látványos, mint az iRoboté. Az MIT legendás robotikusa, Rodney Brooks, valamint Colin Angle és Helen Greiner 1990-ben alapították a céget Massachusettsben azzal a céllal, hogy a mesterségesintelligencia-kutatások eredményeit a háztartásokba vigyék...

MA 13:02

Az ENSZ és a NASA árgus szemmel lesi az új csillagközi üstököst

👀 A 3I/ATLAS üstökös egyre komolyabb figyelmet kap a nemzetközi tudományos közösségtől, ahogy december 19-én eléri földközeli pontját...

MA 12:49

Az iRobot az összeomlás küszöbén: kínaié lehet a Roomba

Az iRobot, amely egykor forradalmasította az otthoni takarítást a Roomba robotporszívóival, csődvédelmet kért...

MA 12:34

Az új MI már sejtszinten látja előre a fejlődést

Ilyen eset például, amikor a gyümölcslégy embriójában a sejtek szédületes tempóban válnak szét, rendeződnek át és növekednek, hogy kialakuljanak a majdani szervek és szövetek...

MA 12:01

Az Absynth visszatért: még merészebb, sosem hallott hangok

Tizenhat év után újra életre kelt a legendás Absynth szintetizátor. A Native Instruments most a hatodik verzióval lepte meg a zenészeket, ráadásul az eredeti fejlesztő, Brian Clevinger közreműködésével és olyan elismert alkotók presetjeivel, mint Brian Eno és Kaitlyn Aurelia Smith...

MA 11:34

Az Angeline Era új fejezetet nyit a PS1-nosztalgiában

A 90-es évek végének videojátékai sokak számára varázslatos, felfedezésekben gazdag korszakot jelentenek...

MA 11:18

Az oxigénatomok rejtett tánca a vízben — lézerrel leleplezve

Az oxigén legrejtélyesebb formája, az atomos oxigén eddig láthatatlan maradt a vízben—most azonban egy fejlett lézeres technikával sikerült először képalkotó eljárással közvetlenül megörökíteni ezeket az atomokat...

MA 11:02

A rosszul konfigurált honeypotok veszélyesebbek, mint gondolnád

⚠ Jellemző példa erre, hogy a brit Nemzeti Kiberbiztonsági Központ (NCSC) szerint a csapdákként működő honeypotok és álfiókok valóban hasznosak lehetnek a védekezők számára, de csak akkor, ha körültekintően telepítik őket...

MA 10:56

Az MI-re ömlik a tőke, még ha nem is éri meg

A világ legnagyobb cégeinek vezetői egyre többet fognak költeni mesterséges intelligenciára 2026-ban, annak ellenére, hogy a beruházások eredményei eddig igencsak vegyesek voltak...

MA 10:49

Az EU is betiltaná a közösségi médiát a tiniknek

Dánia komoly lépésre készül: az ausztrál mintát követve szigorúan korlátozná a közösségi média használatát a fiatalok körében...