MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 07:50

A Windows 10 uralma töretlen, hiába a 11

Bár a Microsoft már minden eszközzel próbálja rávenni a világot a Windows 11-re való átállásra, továbbra is a Windows 10 az egyik meghatározó rendszer az asztali gépeken világszerte...

MA 07:44

Az űrkamera célkeresztjében az intersztelláris üstökös

Fontos kérdés, hogy miként készül a tudományos világ az újabb kozmikus látványosságra: az intersztelláris 3I/ATLAS üstökös rövidesen elhalad Földünk mellett, és a NASA, valamint az ESA már most is lenyűgöző felvételekkel jelentkezett róla...

MA 07:22

A Meta új szemüvegének premierjét ismét elhalasztották

A Meta legújabb kevert valóságú szemüvegének bemutatója 2027 első felére tolódik...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 12/7

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Screen Light Table Lamp (iPhone/iPad)A Screen Light Table Lamp alkalmazással a telefonod kijelzője asztali lámpaként, olvasólámpaként, éjszakai fényként vagy tompított fényként használható...

MA 07:08

Az amerikai bíró hadat üzen a Google monopóliumának

Egy amerikai szövetségi bíró friss döntése szerint a Google-nek mostantól évente kell újratárgyalnia azokat a szerződéseket, amelyek alapján a keresője és MI-szolgáltatásai alapértelmezettként kerülnek különböző eszközökre...

MA 07:01

A kínai chipforradalom új hulláma: a Cambricon elindítja a gyártást

🚀 A kínai Cambricon Technologies nagyszabású tervet indított: 2026-ban háromszorosára növelné MI-chipjei gyártását, így próbálva betölteni azt az űrt, amelyet az Nvidia kivonulása hagyott a kínai piacon...

MA 06:57

A Föld titokzatos erői nyomában: a SQUIRE-projekt

🚀 Érdemes megvizsgálni, hogy a kutatók miként alakítják a Földet hatalmas érzékelővé, hogy eddig rejtett kozmikus erőket kutassanak...

MA 06:50

A közösségi médiában az ismerősökkel szabadul el a trágárság

Kezdetben mindenki úgy gondolta, hogy a káromkodás az igazán közeli barátokkal jellemző, hiszen velük vagyunk a legfelszabadultabbak...

MA 06:45

Az éves Spotify Wrapped-láz és a legmenőbb utánzók

A Spotify Wrapped év végi összefoglalója igazi közönségkedvenc lett: minden évben hatalmas lelkesedéssel osztják meg a hallgatók a személyre szabott statisztikáikat...

MA 06:37

Az új 30 TB-os szalagos meghajtó az SSD-k nyakán liheg

📦 Komoly adattárolási igényekre mostantól akár 30 TB-os LTO-10 szalagos meghajtót is csatlakoztathatsz egy Apple Mac mini számítógéphez...

MA 06:22

Az MI újra felveri a szerverek és PC-k árát

A szerverek és PC-k árai meredeken emelkednek, miután tartós memóriahiány alakult ki a piacon...

MA 06:15

Megint botrány az önvezető taxiknál: újabb visszahívás

Az amerikai Waymo ismét visszahívja önvezető autóflottáját, miután a robotaxik több alkalommal nem álltak meg megálló iskolabuszok mellett, hiába villogtak a buszokon a piros lámpák, és kint volt a stoptábla...

MA 06:09

Az éghajlat átalakul: egyre hevesebb esők sújtják a Déli-óceánt

🌧 A cementhideg széllel ostorozott Macquarie-szigeten először a lenyűgöző állatvilág vonzza a tekintetet: elefántfókák feküdnek a sötét partokon, királypingvinek menetelnek fel a mohás lejtőkön, miközben albatroszok köröznek a szélben...

MA 06:05

Történelmi események a mai napon (December 7.)

Röviden: ezen a napon történt a Pearl Harbor elleni támadás és elindult az utolsó Apollo-holdküldetés, az Apollo 17...

MA 06:03

Az első jelek: már köztünk a szuperintelligens MI?

🧐 A legújabb MI-modellek már képesek saját szoftverüket írni és javítani. Sokan felteszik a kérdést: lehet, hogy most indul el az a folyamat, amely valódi szuperintelligenciához vezet?..

szombat 20:49

Az MI klímalábnyoma: mítosz vagy kőkemény valóság?

Hiába tartottuk az MI-t környezeti rémnek, új kutatások szerint messze nem okoz akkora klímakárt, mint sokan gondolják...

szombat 20:34

A rejtett zsírégető kapcsoló: új remény az FGF19-től

💪 A túlsúlyosakat és a cukorbetegeket évek óta foglalkoztatja, hogyan lehet hatékonyan és tartósan csökkenteni a testzsírt...

szombat 20:17

Az új csodarost: tényleg egészségesebb a hűtött pizza?

Ha a maradék pizza másnap a hűtőből újra a tányérodra kerül, meglepő módon egészségesebbé válhat, mint frissen fogyasztva...

szombat 20:02

Az első spirálgalaxis átírja a kozmoszt: Alaknanda szenzációja

Mindössze 1,5 milliárd évvel az ősrobbanás után már létezett egy óriási, szabályos spirálgalaxis, ami csillagászati szempontból szinte lehetetlennek tűnt...