2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 08:17

Az Intel bicskája beletörik az AI-adatközpontok rohamába

Újabb nehéz hónap vár az Intelre: miközben az új PC-processzorok csökkentik a nyereséget, a cég képtelen lépést tartani az MI-alapú adatközponti chipek iránti megugró igényekkel...

MA 08:03

Az univerzumban magunk vagyunk? Elon Musk szerint naná

Ilyen eset például, amikor Elon Musk, a világ egyik legismertebb technológiai vezére arról győzködi a közönséget, hogy szerinte rendkívül valószínűtlen, hogy létezne értelmes élet a Földön kívül...

MA 07:57

A SmarterMail súlyos hibája miatt sorra feltörik az adminfiókokat

A SmarterMail e-mail szerver kritikus hibája sorra támadhatóvá teszi az adminfiókokat világszerte...

MA 07:49

Az OpenAI visszavág: újra a nagyvállalatokat célozza

Az OpenAI alapjaiban átszervezte vezetőségét, hogy felpörgesse MI-megoldásainak értékesítését nagyvállalati partnerek számára 2026-tól...

MA 07:41

Az egyszerű vérteszt évekkel hamarabb leplezi le a Crohn-kórt

Egészen új reményt nyújt a Crohn-betegség korai felismerésére egy egyszerű vérteszt, amely képes évekkel a tünetek megjelenése előtt előre jelezni a kockázatot...

MA 07:33

Az új Ring-ellenőrző kudarcot vall az MI-csalók ellen

A Ring bevezetett egy új, Ring Verify nevű eszközt, amely megmutatja, hogy egy letöltött videó érintetlen-e, vagyis változtattak-e rajta a letöltés óta...

MA 07:25

A Telly ingyen tévéje bukásra áll: alig érdekel valakit

A Telly nevű startup forradalmi ötlettel lépett a piacra: náluk a vásárlók ingyen kapnak egy kétképernyős tévét, amelynek alsó részén folyamatosan reklámokat kell nézniük...

MA 07:17

Az Apple új MI-s viselhetője: mi a bökkenő?

Az Apple gőzerővel dolgozik egy új, MI-alapú viselhető eszközön, amely várhatóan 2027-ben érkezhet meg a boltokba...

MA 07:09

A TikTok megmenekült az amerikai tiltástól: új kezekbe kerül

A TikTok hosszú évek bizonytalansága után végre megegyezésre jutott, és megalakítja új amerikai vállalatát, ezzel elkerülve a betiltást az Egyesült Államokban...

MA 07:01

Óriási Microsoft-leállás: áll az Outlook és a Teams világszerte

Csütörtökön sokak számára leálltak a legfontosabb munkahelyi programok: többek között az Outlook, a Teams és a Microsoft 365 sem működtek megfelelően...

MA 06:49

Egyre inkább az amerikai fiatalokat sújtja a vastagbélrák

Az Egyesült Államokban az utóbbi években jelentősen javult a daganatos megbetegedések túlélési aránya az 50 év alatti felnőttek körében...

MA 06:43

A hangrobbanás lehet az űrszemét elleni csodafegyver?

Érdekes felvetés, hogy a hangrobbanásokat régóta a vadászrepülőkhöz vagy rakétákhoz kötjük, most viszont úgy tűnik, ezek a furcsa zajok lehetnek a Föld pajzsai is...

MA 06:26

Az MI-őrület új kihívója: a Railway az AWS trónjára tör

Érdekes felvetés, hogy egy San Franciscó-i felhőplatform, a Railway, alig öt év alatt kétmillió fejlesztőt gyűjtött maga köré úgy, hogy egy fillért sem költött marketingre...

MA 06:17

Az új antitest áttörést hozhat a legagresszívebb mellrák kezelésében

Ez a jelenség jól illusztrálható azzal, hogy a kutatók egy ígéretes új fegyvert találtak a tripla-negatív emlőrák (TNBC) ellen, amely a mellrák egyik legagresszívabb formája...

MA 06:05

Történelmi események a mai napon (Január 23.)

Ezen a napon sok korszakhatár született: a holland protestáns köztársaság megszületése, a világtörténelem legpusztítóbb földrengése, és a polgárjogok fontos mérföldköve az USA-ban...

MA 06:02

A valódi MI-forradalom: apró optikai chipek forradalmasítják a gépi tanulást

Érdekes felvetés, hogy a láthatatlanná tevő köpenyektől az MI-chipekig milyen hosszú utat járt be az optikai technológia...

csütörtök 20:55

Az AMD új csúcsprocesszora lázba hozza a játékosokat

Január 29-én érkezik az AMD várva várt Ryzen 7 9850X3D processzora, amelyért 174 ezer forintot (499 USD) kell majd fizetni...

csütörtök 20:37

Az INC zsarolóvírus fiaskója: 12 amerikai cég adatai visszakerültek

🔑 Egy súlyos biztonsági hiba miatt sikerült visszanyerni azokat a titkosított adatokat, amelyeket az INC zsarolóvírus-csoport lopott el egy tucat amerikai szervezettől...

csütörtök 19:57

Bízhatunk az MI-ben? Így építhető fel a bizalom

A mesterséges intelligencia forradalma nemcsak új technológiákat hoz el, hanem új kihívásokat is felvet a bizalom terén...