MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 20:50

A szuperviharok mikroműanyag-záport zúdítanak a szárazföldre

🌧 Érdemes megvizsgálni, hogy a trópusi viharok, például a tájfunok, hurrikánok és ciklonok nem csupán az emberiség egyik legpusztítóbb időjárási jelenségei, hanem rendkívül hatékony szállítói is lehetnek egy másik, alábecsült veszélyforrásnak: a mikroműanyagoknak...

MA 20:34

Az új Rivian-terv: fordulópont vagy Tesla-verés?

Rivian, a Tesla egyik legnagyobb kihívója az elektromos autók piacán, új stratégiával igyekszik szintet lépni és megerősíteni pozícióját a megváltozott politikai környezetben...

MA 20:18

A római önjavító beton titka: új csodák Pompejiből

🧱 Senki sem várta volna, hogy egy kétezer éves építkezési helyszín Pompeii-ben teljesen átírja mindazt, amit eddig a római beton előállításáról tudtunk...

MA 20:02

Az Indus-völgyi civilizációt évtizedes aszályok döntötték romba

💧 Az Indus-völgyi civilizáció, az egyik legkorábbi városi társadalom, fokozatos eltűnését évszázadokon át tartó aszályok okozták...

MA 19:50

A véres Csendes éj visszatér: Mikulás lemészárolja a nácikat

🥳 1984-ben a Csendes éj, halálos éj (Silent Night, Deadly Night) című karácsonyi slasher-film jóval nagyobb botrányt kavart, mint amekkora sikert aratott...

MA 19:34

A bélrendszer titkos fegyvere az elhízás és a cukorbetegség ellen

A Harvard Egyetem kutatócsoportja merőben új összefüggéseket talált az elhízás és a 2-es típusú cukorbetegség kialakulásával kapcsolatban: a bélbaktériumok által termelt anyagcsere-termékek alapjaiban befolyásolják, hogy a test hogyan kezeli az energiát...

MA 19:17

A ServiceNow történetének legnagyobb fogása lehet az Armis

💰 A ServiceNow szoftvercég 2 500 milliárd forintos (7 milliárd dolláros) ügyletben tárgyal az Armis nevű kiberbiztonsági startup felvásárlásáról...

MA 19:02

A Végítélet-gleccser megremeg: közeleg a jégapokalipszis?

Antarktisz délnyugati peremén, a Thwaites-gleccser, más néven a Végítélet-gleccser, környezetében eddig soha nem látott mértékben jelentkeznek jégből eredő földrengések...

MA 18:50

Az ultrarövid lézerek forradalma: molekulák titkos kézfogása leleplezve

🔬 Egy lényeges szempont, hogy az élő sejteken belül a folyadékok szerkezete hihetetlenül összetett...

MA 18:33

A sejtek összetapadásának ősi titkai: a talin színre lép

🧠 Az állati sejtek – így az emberi sejtek is – különösen erősen képesek hozzátapadni a környezetükhöz, ami lehetővé teszi, hogy bonyolultabb szövetek és szervek alakuljanak ki...

MA 18:18

Az MI szándékosan elrontja a képeit – és beválik

Az MI-alapú képgenerátorok meglepő irányt vettek: egyre valósághűbb hamisítványokat készítenek, méghozzá úgy, hogy szándékosan rontanak a képminőségen...

MA 17:50

A lélek jégtánca: halálos verseny a Déli-sarkért

❄ Különösen igaz ez akkor, ha a világ utolsó ismeretlen kontinensét akarja valaki meghódítani...

MA 17:35

Az önálló Hayley Williams: új fejezet, határtalan szabadság

🎶 Augusztusban Hayley Williams, a Paramore frontembere váratlanul 17 új dalt dobott piacra, ezzel valósággal felrobbantva a popzenei palettát...

MA 17:17

Az új Pop!_OS és COSMIC forradalmasítja a Linux-élményt

Az amerikai System76 kiadta a COSMIC asztali környezet első stabil verzióját, amelyet kifejezetten Linux-rendszerekhez fejlesztett...

MA 17:01

Az élet csodaszép: három időtálló pénzügyi tanulság ma is

😊 Karácsonykor sokan nosztalgiával nézik újra a klasszikus Az élet csodaszép (It’s a Wonderful Life) című filmet...

MA 16:50

Az amerikai diákhitel csapdája: fizetsz, de miért is?

💰 Sok egyetemista és volt diák az Egyesült Államokban jóval többet fizet vissza diákhitelére, mint amennyit feltétlenül szükséges lenne – pusztán azért, mert nem ismerik a számukra elérhető könnyítési programokat...

MA 16:34

Az élő fosszília: feltárult a vámpírtintahal genetikai kódja

🐙 Különösen igaz ez akkor, ha a mélytenger rejtélyes élőlényeiről van szó, amelyek évmilliók óta alig változtak – ilyen a vámpírtintahal (Vampyroteuthis infernalis) is...

MA 16:17

A Time az MI-építészeket választotta az Év Embereinek

A Time magazin idei címlapján az MI korszakának kulcsszereplői, az úgynevezett MI-építészek szerepelnek, akik sorsfordító módon formálják át a világot...

MA 16:02

Az AMD Redstone-frissítés miért dühítette fel a PC-s játékosokat?

💢 A héten végre megérkezett az AMD régóta várt Redstone frissítése, amely négy különböző technológiát kínál, de láthatóan sok PC-s játékos fejében okozott zavart...