2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 16:19

A levegőben úszó mikroműanyag-felhő: a légkör fullasztó terhe

Kutatók először becsülték meg, hány mikroműanyag szennyezi a Föld légkörét – az eredmény megdöbbentő...

MA 16:02

A világ legősibb barlangrajza 68 ezer éves titkokat őriz

🔥 Indonézia szigetvilágában, Sulawesi szigetén elképesztően régi, legalább 67 800 éves barlangrajzokat fedeztek fel kutatók, amelyek kéznyomatokat ábrázolnak...

MA 15:56

Az elfeledett molekula, amely áttörést hozhat a gombafertőzések ellen

💊 Lényeges, hogy a súlyos gombafertőzések évről évre több millió áldozatot követelnek világszerte, miközben az elérhető kezelési lehetőségek alig változnak...

MA 15:20

Az Apple megússza összehajtható iPhone nélkül?

Erre utal többek között az, hogy miközben az iPhone 17 már megjelent – és valóban tetszetős a vibráló kozmikus narancssárga színével –, sokan csalódottan vették tudomásul, hogy az évek óta pletykált összecsukható iPhone továbbra sem debütált...

MA 15:01

Az MI-vel felturbózott Google Home néha bosszantóan makacs

Egyre több Google Home-felhasználónak tűnik fel, hogy az új Gemini MI bizony nem mindig együttműködő...

MA 14:55

A rezgőnyárak rejtélye: tényleg a farkasok mentették meg Yellowstone-t?

Az utóbbi években sok szó esett arról, hogy a farkasok visszatelepítése óriási átalakulást hozott Yellowstone-ban, és megmentette a rezgőnyárakat (aspen)...

MA 14:40

Elrajtol az első kereskedelmi űrállomás: a Haven–1

A világ első kereskedelmi űrállomásának összeszerelése már javában zajlik. A Haven-1 elindulásával új korszak kezdődik az űrkutatásban, ahol magáncégek veszik át az eddig csak államok számára elérhető teret...

MA 14:22

Az SMS-es belépőlinkek milliók adatait sodorják veszélybe

A mobilos belépés árnyoldalai Milliós nagyságrendben kerülnek veszélybe emberek személyes adatai, amikor különböző weboldalak a regisztráció és a bejelentkezés során SMS-ben küldött linkekkel vagy kódokkal azonosítják a felhasználót...

MA 14:01

Az Anthropic új MI-szabályai: hasznosak, őszinték, és nem irtják ki az emberiséget

Az Anthropic teljesen átalakítja Claude nevű MI-jének működési alapelveit. Az új, 57 oldalas dokumentum kifejezetten Claude-nak készült, nem a külvilágnak: meghatározza, hogy milyen értékrend és viselkedés várható el tőle, és milyen elvek alapján döntsön nehéz, ellentmondásos helyzetekben...

MA 13:55

Az MI-forradalom aranykort hozhat a szakmunkásoknak

A mesterséges intelligencia forradalma váratlan nyertest hozott: a chipgyártó és egyéb csúcstechnológiájú üzemek építői előtt hatalmas lehetőség nyílik meg...

MA 13:38

Összeáll végre a sötét anyag és a „szellemrészecskék” rejtélye?

💫 Az univerzum alapvető rejtélyeire új fény vetülhet, ha beigazolódik, hogy a sötét anyag és a neutrínók, vagyis a szellemrészecskék rendszeresen kölcsönhatásba lépnek...

MA 13:19

Az atomoknál megdől egy 200 éves fizikai törvény?

A Stuttgarti Egyetem két fizikusa megdöntötte a hőtan egyik alapelvét: amikor részecskék atomi léptékben összefonódnak, a több mint 200 éve meghatározott hatékonysági korlát egyszerűen nem érvényes...

MA 13:03

Az apró spinváltás felforgatja a kvantumfizika egyik alapjelenségét

A kvantumrészecskék viselkedése különleges mintázatokat mutat, amikor egymással kölcsönhatásba lépnek, és ezek a csoportos interakciók számos hagyományos fizikai törvényt átírnak...

MA 12:55

Az űrdenevérek titkai, amelyekről a drónok csak álmodnak

👾 A denevérek bámulatos navigátorok: a sötét erdőkben és barlangokban úgy suhannak, mintha radarjuk volna, saját hangjaik visszaverődéseit figyelve tájékozódnak...

MA 12:37

Az univerzum szeme kinyílik: lélegzetelállító JWST-képek a Helix-ködről

A Helix-köd új, részletgazdag képein, amelyeket a James Webb-űrteleszkóppal (JWST) készítettek, Naprendszerünk egyik legismertebb csillagtemetője egészen új arcát mutatja: látványos csomókat, csillagszelek által formált por- és gázfelhőket tár elénk...

MA 12:20

Az aszteroida-becsapódás után meglepően gyorsan talpra állt az élet

🚀 Hatvanhat millió évvel ezelőtt a Földet eltaláló aszteroida elképesztő pusztítást végzett: kihaltak a dinoszauruszok és számos más élőlény, a bolygó élete gyakorlatilag összeomlott...

MA 12:02

Az MI-szupersztárok új startuplázat robbantanak ki

🚀 Egyre gyakrabban fordul elő, hogy népszerű, nyílt forráskódú MI-eszközökből rövid idő alatt százmilliókat érő startupok lesznek...

MA 11:58

Az MI-leállások rémét űzi el a TrueFoundry új fegyvere

⚡ Érdemes megvizsgálni, hogyan válnak egyre kockázatosabbá a nagyvállalati MI-alapú rendszerek, amikor kizárólag egyetlen modell vagy szolgáltató megbízhatóságára támaszkodnak...

MA 11:38

Az okostelefonod éjjel titokban kifecsegi az adataidat

💡 Noha az okostelefonod éjszaka, az éjjeliszekrényeden pihenve látszólag tétlen, valójában sosem áll le teljesen...