MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

hétfő 21:00

Az Instagram felrobbant: Kylie Jenner ismét bikiniben pózol

A hétfői rosszkedvre itt a tökéletes ellenszer: Kylie Jenner újabb bikinis szelfivel lepte meg követőit, és elképesztően néz ki...

MA 21:30

A Nintendo Switch-re visszatérnek a rég elfeledett klasszikusok

November 25-től újabb legendás 8 bites játékok váltak elérhetővé a Nintendo Switch Online kínálatában...

MA 21:28

Az óriás neutrínódetektor áttöri a fizika határait

Érdemes tudni, hogy mélyen Dél-Kína földje alatt, egy hatalmas, 20 000 tonnás tartályban elkészült a világ legnagyobb neutrínó-detektora, a JUNO (Jiangmen Underground Neutrino Observatory)...

MA 18:18

Az MI már most az amerikai állások bő tizedét kiválthatja

A Massachusetts Institute of Technology és az Oak Ridge National Laboratory friss kutatása alapjaiban forgathatja fel a mesterséges intelligencia munkaerőpiacra gyakorolt hatásáról alkotott elképzeléseket...

MA 18:02

A Mars ősi jégkorszakának nyomai végre napvilágra kerültek

A Mars felszínének rég nem látott titkait tárták fel a legfrissebb képek: az egykori jégkorszak drámai öröksége most először válik igazán láthatóvá...

MA 17:49

Az MI miatt hatezer HP-alkalmazott kerülhet utcára

Nagy leépítési hullámra készül a HP, miután bejelentették, hogy akár hatezer dolgozót is elküldenek az elkövetkező három évben...

MA 17:34

Az ünnepi lakoma előtti koplalásért csúnyán megbosszul a gyomrod

Az ünnepi időszakban sokan arra esküsznek, hogy érdemes kihagyni akár a reggelit vagy az ebédet is, hogy aztán este korlátlanul élvezhessék a finomságokat...

MA 17:18

Az etióp vulkán 12 ezer év után újra életre kelt

🔥 Észak-Etiópiában, az Afar régiójában fekvő Hayli Gubbi vulkán 12 000 évnyi csend után vasárnap reggel óriási erővel tört ki, hatalmas hamu- és füstfelhőt eregetve a Vörös-tenger irányába...

MA 17:02

Megvan az első közvetlen bizonyíték a sötét anyagra?

Majdnem száz éve feltételezik, hogy egy láthatatlan, rejtélyes anyag, a sötét anyag szövi át a világegyetemet, és galaxishálózatokat formál...

MA 16:50

Az igazság, amit eltitkolnak: a bevándorlók gazdasági haszna

💰 A migrációval kapcsolatos hírek jellemzően fenyegetést vagy veszélyt sugallnak, holott a kutatások alapján a bevándorlás számos előnyt hoz a fogadó országoknak...

MA 16:34

A filléres MI-bűnözés kora: WormGPT 4 és KawaiiGPT

💸 Senki sem várta volna, hogy az MI-alapú támadások ilyen gyorsan elérhetővé válnak szinte bárkinek, de most, akinek van 80 000 forintja, életre szóló hozzáférést szerezhet egy bűnözésre fejlesztett nagy nyelvi modellhez, a WormGPT 4-hez...

MA 16:01

Az Alibaba Cloud nem győzi az MI-keresletet

🔥 Az Alibaba Cloud sosem látott MI-őrületet él át Kínában: hiába bővíti folyamatosan a szerverparkját, egyszerűen nem bír lépést tartani a növekvő kereslettel...

MA 15:50

Az izomnövelő olaj évekkel később halálos árat követelt

💉 Megvizsgálták, hogy egy 60 éves varsói férfinél mi vezetett drámai izomtorzuláshoz és életveszélyes, megemelkedett vérkalciumszinthez...

MA 15:33

Az OLED-panelek mostantól kapcsolhatók: irányított fény gombnyomásra

Az Oxfordi Egyetem kutatóinak sikerült először olyan OLED (organikus fénykibocsátó dióda) technológiát fejleszteniük, amely elektromos jellel képes váltani a kibocsátott fény „forgásirányát”, vagyis bal- vagy jobbkezes körpolarizált fényt hoz létre – anélkül, hogy a fényt kibocsátó molekulákat ki kellene cserélni...

MA 15:18

Az űrállomás hősei: kulisszatitkok a kínai űrmentésről

Érdekes felvetés, hogy a világűrben dolgozó űrhajósok élete mennyire függ a biztonsági tartalékmegoldásoktól...

MA 15:02

Az Nvidia nekiment a Google MI-gyorsítóinak a Meta miatt

🛡 Fontos kérdés, hogy komoly fenyegetést jelenthet-e a Google saját fejlesztésű MI-gyorsítója, a TPU az Nvidia által uralt piacra – főleg, hogy a Meta állítólag fontolgatja a váltást...

MA 14:50

Az mRNS-terápia áttörést hoz az antibiotikum-rezisztencia elleni harcban

Fontos megérteni, hogy az antibiotikum-rezisztens fertőzések világszerte egyre nagyobb fenyegetést jelentenek...

MA 14:34

Az ember legjobb barátja mégiscsak farkas maradt?

🐶 A modern kutyafajták többsége ma is aprócska mennyiségű farkasgéneket hordoz, méghozzá nem is az ősidőkből, hanem viszonylag friss, néhány ezer éves keveredésekből...

MA 14:02

A Poco új telefonja már mélynyomóval támad

🔊 A Poco új F8 szériája igazi különlegességet kínál: az F8 Ultra modell már mélynyomóval is felszerelt, így a mobilhangzás új szintjét hozza el...