MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 00:01

Az okos varjak, akik megtisztítják a városainkat

🦉 A varjak mindig is különleges madarak voltak. Számtalan történet szól arról, hogy képesek megbarátkozni emberekkel, ajándékokat hoznak, sőt, olykor elveszett tárgyakat is visszaszolgáltatnak gazdáiknak...

Top
hétfő 16:50

Egyetemet végzett milliárdosok – ki mit végzett?

A közvéleményben gyakran keringenek olyan történetek, amelyek a felsőoktatásból kimaradó vállalkozókról szólnak...

MA 20:17

Az internet felforgatta a munkát – most az MI írja át?

Az internet mindent megváltoztatott, ám nem úgy, ahogy azt 1998-ban képzelték...

MA 20:01

Az iPhone-osok végre fogadhatnak fájlokat Androidról

📩 Hamarosan a Snapdragon lapkával szerelt androidos készülékek is képesek lesznek fájlokat küldeni iPhone-ra a Quick Share segítségével...

MA 19:50

A mesterséges intelligencia új bálványa: miért hódolnak be a ChatGPT-nek?

🧠 Érdemes megvizsgálni, miért kezdenek egyre többen a ChatGPT-t nemcsak beszélgetőpartnerként, hanem lelki vezetőként, sőt isteni entitásként használni...

MA 19:34

A köröző keselyűk titka: nem a halálodat lesik

🦉 A keselyűket gyakran baljós előjelként ábrázolják, hiszen a közhiedelem szerint csak akkor köröznek az égen, ha halál közeleg...

MA 19:17

Az app, amely villámgyorsan turbózza a Windowsodat

Új lendületet kap a Windows: megérkezett a Raycast, amely egyetlen alkalmazásba gyűjti a gyorsindítót, vágólapkezelőt, billentyűparancsokat és rengeteg más hasznos segédeszközt...

MA 19:04

A réz váratlan áttörést hozott az olcsóbb, gyorsabb atomkutatásban

🪐 A fotoneutron-keresztmetszetek mérése alapjaiban változhat meg egy új szubsztitúciós eljárásnak köszönhetően, amely gyorsabbá, pontosabbá és jóval költséghatékonyabbá teszi a nukleáris reakcióméréseket – méghozzá természetes réz felhasználásával...

MA 18:49

Az MI aranybányája: Tényleg még mindig olcsó a Meta?

Figyelemre méltó, ahogyan a Meta Platforms az MI-t használja az adatok feltérképezésére, a felhasználói preferenciák felismerésére és optimalizálására, hogy a hirdetők pontosan azt a célcsoportot érjék el, amelyet szeretnének...

MA 18:35

Az okoseszközök cseréje belassult – mi fizetjük meg az árát

💳 Az Egyesült Államokban egyre többen ragaszkodnak régi okostelefonjaikhoz, laptopjaikhoz és más digitális eszközeikhez, sokszor jóval tovább használva őket, mint néhány éve...

MA 15:33

A Hattyú csillagképben tündököl a gigantikus gyémántgyűrű

💎 Egy látványos, csillogó gáz- és porszerkezet, az úgynevezett „gyémántgyűrű” tündököl 4 500 fényévnyire a Hattyú (Cygnus) csillagképben...

MA 15:17

Az MI-láz új királya: Larry Page megelőzte Jeff Bezost

A Google társalapítója, Larry Page a világ harmadik leggazdagabb embere lett, miután az Alphabet részvényei 3 százalékkal emelkedtek a frissen bemutatott Gemini 3 MI-modellnek köszönhetően...

MA 15:02

A Perseverance rábukkant az első idegen meteoritra a Marson

Fontos kérdés, hogy van-e élet a Marson – ezért a NASA Perseverance marsjárója már négy éve kutatja a bolygó felszínét, kőzetmintákat gyűjt, amikor váratlanul egy egészen különös, Phippsaksla névre keresztelt sziklára bukkant...

MA 14:36

A középkategória királya: Samsung HW‑Q800F hangprojektor teszt

🔊 A Samsung HW-Q800F új mércét állít a középkategóriás otthoni mozi hangzásban, igazi mindentudóként érkezik a nappalikba...

MA 14:18

Forrósodik a helyzet: a Tesla-befektetők újabb pofonokat kapnak

Év elején a Teslát kétségek gyötörték: a világszerte csökkenő eladások és Elon Musk politikai botrányai nyomán mélyrepülésbe kezdett a részvényárfolyam...

MA 14:03

A Signal tényleg anonim? A titkok mögötti igazság

🔐 Első pillantásra úgy tűnhet, hogy a Signal az egyik legbiztonságosabb üzenetküldő alkalmazás a világon, hiszen végponttól végpontig titkosított üzeneteket kínál, ráadásul katonai szintű adatvédelemmel...

MA 13:49

A legendás ICQ végnapjai: így múlt ki az üzenetküldő

🔔 Az 1990-es évek közepén a Mirabilis nevű izraeli cég forradalmasította az internetes kommunikációt az ICQ-val...

MA 13:34

A Comet-botrány: tényleg percek alatt feltörhető az MI-böngésző?

Az elmúlt napokban komolyan felforrósodott a levegő a Comet MI-böngésző körül: a SquareX kiberbiztonsági cég szerint a Perplexity által fejlesztett szoftverben súlyos sebezhetőség lapul...

MA 12:48

Újabb bitcoinzuhanás: felfordult a tőzsde?

A hét közepén jelentős eladási hullám söpört végig az amerikai tőzsdéken, amelynek egyik lehetséges kiváltójaként a bitcoin árfolyamának meredek esését említették pénzügyi szakértők...