MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

hétfő 21:00

Az Instagram felrobbant: Kylie Jenner ismét bikiniben pózol

A hétfői rosszkedvre itt a tökéletes ellenszer: Kylie Jenner újabb bikinis szelfivel lepte meg követőit, és elképesztően néz ki...

MA 16:17

Az egyik legnépszerűbb JavaScript-titkosító könyvtár kritikus sebezhetést foltoz

Egy komoly biztonsági hibát fedeztek fel a node-forge nevű JavaScript-titkosítási könyvtárban, amely világszerte rendkívül népszerű a fejlesztők körében...

MA 15:34

Az RNS, amely önmagát rendezi: lefilmezték a ribozim önszerveződését

Az RNS (ribonukleinsav) alapvető szerepet tölt be az élővilágban, mára pedig a gyógyászatban és a nanotechnológiában is nélkülözhetetlenné vált...

MA 15:17

A titokháború az Intel sztárigazolása körül robbant ki

A TSMC beperelte korábbi csúcsmérnökét, Wei-Jen Lo-t, miután a szakember az Intelhez igazolt...

MA 15:02

Az Apple TV törölte A Vadászatot botrányos plágiumvád miatt

Az Apple TV hirtelen eltüntette A Vadászat (The Hunt) című francia sorozatot kínálatából, miután felmerült a gyanú, hogy a történet egy 1974-ben megjelent regényt, a Lövést (Shoot) másolhatja...

MA 14:51

Az emberi értelem: sorsszerű fejlődés vagy kozmikus véletlen?

Az emberi tudat létezése mindig is lenyűgözte és elgondolkodtatta a tudósokat...

MA 14:35

Az élet genetikai tánca: feltárták az RNS‑polimeráz rejtett szabályait

🕸 Az élet működésének kulcsa a DNS-ben rejlik, de ezt a kódot az RNS-polimeráz II (Pol II) olvassa fel: ő az, aki az eukarióta sejtekben az RNS-t írja át, és végül így születnek meg a fehérjék...

MA 14:17

Az Apple letaszította a Samsungot: az iPhone ül a trónon

Az Apple idén először letaszítja a Samsungot az okostelefon-eladások világranglistájának éléről, miután 2011 óta a koreai gyártó uralta a piacot...

MA 14:03

Az ULA Vulcan idén döcög: nagy tervek, sovány eredmények

Az elmúlt évben a United Launch Alliance (ULA) hatalmas ambíciókkal vágott neki a 2025-ös évnek: akár húsz kilövést terveztek, a régi Atlas V és az új Vulcan rakéta nagyjából egyenlő arányú bevetésével...

MA 13:49

Az MI miatt tömeges elbocsátások: a HP is csatlakozik

💸 A HP akár 6 000 embert is elbocsát, hogy évi 365 milliárd forintot spóroljon meg az MI használatának növelésével...

MA 13:34

A mellőzött tápanyag, amely már fiatalon kikezdi az agyat

Erre utal többek között az, hogy az elhízás nem csupán a testet, hanem már egészen fiatal korban az agyat is károsíthatja...

MA 13:17

A hajnali földrengés megrázta az Öböl-vidéket

A kora reggeli órákban 4,0-es erősségű földrengés rázta meg a kaliforniai öbölvidéket...

MA 13:02

Az MI tényleg megtalálja a tökéletes Black Friday-laptopot?

💻 Erre utal többek között az, hogy a legújabb MI-alapú vásárlási segédeszközök, mint a ChatGPT, a Gemini és a Perplexity, már itthon is elérhetők...

MA 12:50

Az elefántok új szövetségesei: drónok harca a túlélésért

Az elefántok híresek arról, hogy soha nem felejtenek – most azonban azt is bizonyítják, milyen gyorsan képesek alkalmazkodni a modern technológiához...

MA 12:33

A kínai óriás neutrínódetektor áttörő felfedezései

Kína új földalatti neutrínómegfigyelője, a JUNO most először közölt eredményeket, amelyek a két legfontosabb neutrínóoszcillációs paraméterről minden eddiginél pontosabb adatokat adnak...

MA 12:19

Az európai, lassan ébredő MI hozhatja a nagy meglepetést

💡 Európa gyakran tűnik lemaradónak az MI fejlesztésében, különösen az Egyesült Államokkal és Kínával szemben...

MA 12:01

Az AWS rendbe tenné botladozó régiójának DNS-káoszát

Az internetes szolgáltatások nagy kieséseinek egyik fő oka gyakran az Amazon Web Services (AWS) híresen instabil US East régiója, illetve a domainnévrendszer (DNS) meghibásodása...

MA 11:49

Az újabb adatszivárgásnál a Gainsight hárít, több száz ügyfél érintett

A Gainsight vezérigazgatója, Chuck Ganapathi igyekszik kisebbíteni a cégüket ért adatvédelmi incidens súlyosságát, mondván, csak néhány ügyfél adatait érintette a betörés...

MA 11:33

A jövő megérkezett: Mexikóé Latin-Amerika legerősebb szuperszámítógépe

Mexikó nagyszabású tervvel állt elő: 2026-ban elkezdik építeni a Coatlicue névre keresztelt szuperszámítógépüket, amely a kontinens legnagyobb számítási teljesítményével rendelkezik majd...