2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 09:42

Miért eszik meg a gyerekek a saját taknyukat?

🤢 A gyerekek, felnőttek és más főemlősök, például a csimpánzok is ismertek arról, hogy piszkálják az orrukat és megeszik a taknyukat...

MA 09:33

A Hims & Hers lebukott: hamis fogyókúrás tablettákat árult

💊 A Hims & Hers szombaton bejelentette, hogy leállítja a Wegovy másolatának értékesítését, miután a Novo Nordisk és az amerikai Élelmiszer- és Gyógyszerügyi Hatóság (FDA) jogi lépésekkel fenyegette meg a távegészségügyi szolgáltatót...

MA 09:25

Az Anthropic örökre lemondott a reklámokról – de vajon tartható ez az ígéret?

🤔 Az Anthropic csatlakozott azon márkák hosszú listájához, amelyek megfogadták, hogy reklámmentes maradnak...

MA 09:08

A Waymo Fülöp-szigeteki dolgozói csendben irányítják az önvezető autókat

A Waymo szerdán meglepte az amerikai törvényhozókat egy autonóm járművekkel foglalkozó meghallgatáson...

MA 08:56

Az olvasás halála: tévhit vagy valóság?

Valóban szétrombolták a digitális technológiák a figyelmünket, és kiszorították a könyveket a kultúránkból?..

MA 08:50

Az emberiség közös ősére deríthet fényt egy 773 000 éves marokkói lelet

🦴 Egy marokkói barlangból előkerült fosszíliák kivételes pontossággal, körülbelül 773 000 évvel ezelőttre datálhatók, köszönhetően a környező üledékekben rögzült mágneses lenyomatnak...

MA 08:41

A Bitcoin 50%-os zuhanása nem válság, hanem természetes volatilitás

Gary Bode fedezeti alap veterán szerint a Bitcoin közel 50%-os esése a közelmúltbeli csúcsokról nem rendszerszintű válságot jelez, hanem összhangban van a kriptovaluta történelmével, amely során hasonló mértékű, de történelmileg mindig átmeneti zuhanások voltak jellemzőek...

MA 08:24

Az Anthropic mesterséges intelligenciája 500 kritikus biztonsági hibát fedezett fel

Az Anthropic legújabb MI-modellje több mint 500 korábban ismeretlen, súlyos biztonsági hibát tárt fel nyílt forráskódú könyvtárakban, szinte külön utasítás nélkül...

MA 08:01

Mi köze a 6-7-nek, a démonoknak és az Agymenőknek a prímszámokhoz?

Ebből következően érdemes megérteni, hogy a prímszámok a matematika atomjaihoz hasonlóak: olyan oszthatatlan építőelemek, amelyekből minden más szám összeáll...

MA 07:57

A keserű íz azonnal felpörgeti az agyad

🧠 Új kutatás szerint a flavanolokban gazdag ételek keserű, összehúzó íze közvetlenül aktiválhatja az agyat, és pusztán az ízérzékelés által válthat ki a testmozgáshoz hasonló hatásokat...

MA 07:48

Az Anthropic mesterséges intelligenciája 500 kritikus biztonsági rést fedezett fel

Az Anthropic legújabb MI-modellje, a Claude Opus 4.6 több mint 500 korábban ismeretlen, súlyos biztonsági hibát fedezett fel nyílt forráskódú könyvtárakban, minimális utasítással...

MA 07:41

A Cardano alapítója 1200 milliárd forintos veszteséget szenvedett el

😔 Charles Hoskinson, a Cardano alapítója tokiói élő közvetítésében felfedte, hogy több mint 3 milliárd dollár (körülbelül 1200 milliárd forint) nem realizált veszteséget halmozott fel a jelenlegi kriptopiaci zuhanás során...

MA 07:35

Az 5 legjobb elektromos fogkefe gyerekeknek – szakértői tippek a választáshoz

Február a Gyermek Fogászati Egészség Hónapja az Egyesült Államokban, így ez a tökéletes alkalom arra, hogy beszéljünk a kicsik fogairól és ínyszövetéről...

MA 07:26

Állami hackerek 155 ország kormányzati rendszereibe férkőztek be

🌐 Egy államilag támogatott kibercsapat több tucat ország kormányzati és kritikus infrastruktúra-hálózatát törte fel egy Shadow Campaigns névre keresztelt globális kémkedési műveletben...

APP
MA 07:11

APPok, Amik Ingyenesek MA, 2/8

Fizetős iOS appok és játékok, amik ingyenesek a mai napon...

MA 07:01

A tapasztalat minden esetben felülmúlja az ifjú lelkesedést

Egyre több kutatás bizonyítja, hogy az idősebb munkavállalók általában produktívabbak fiatalabb kollégáiknál...

MA 06:49

Az Nvidia-részvények történelmi hozamot hozhatnak a mostani árakon

Kevesen mondanák azt, hogy az Nvidia részvénye olcsó, pedig valójában ez a helyzet...

MA 06:41

A pókselyem titka: így lesz erősebb az acélnál

🕷 A tudósok feltárták azt a molekuláris titkot, amely a pókselymet acélnál erősebbé teszi, és új utakat nyit a jövő anyagai, valamint az agybetegségek megértése felé...

MA 06:32

A nagy techcégek atomenergia-üzletei mindent megváltoztathatnak

A Fortune szerint az atomenergia újjászületése folyamatban van, ezúttal a mesterséges intelligencia energiaigényének kielégítésére...

MA 06:25

Ingatlanpiaci elemzés: hol kerülnek egyre jobb helyzetbe a vevők?

🏘️ Az ingatlanárak alakulásának megértéséhez kulcsfontosságú az aktív kínálat és a készlet hónapjainak figyelemmel kísérése...

MA 06:16

A bitcoin-befektetők visszatértek: széles körű felvásárlási hullám indult

📈 A Glassnode adatai szerint február elején, amikor a bitcoin 29 millió forint körül forgott, a nagy befektetők elkezdtek pozíciót építeni...

MA 06:05

Történelmi események a mai napon (Február 8.)

Mi történt ezen a napon a történelemben? Ezen a napon kivégzik Mary, Queen of Scots-ot (Skóciai Mária királynőt), Japán megszállja Szingapúrt, és elindul a NASDAQ tőzsdeindex...

MA 06:02

A mesterséges intelligencia több mellrákot szúr ki, mint a radiológusok

🔬 Egy úttörő klinikai vizsgálat kimutatta, hogy az MI-támogatott mammográfia több rákos megbetegedést képes felismerni, és korábban, mint a hagyományos vizsgálat...

szombat 20:37

A COVID és a H1N1 két hét alatt söpört végig Amerikán

🦠 Egy új kutatás megdöbbentő sebességet tárt fel, amivel a H1N1 és a COVID-19 elterjedt az amerikai városokban...

szombat 20:01

A NASA február 11-én indítja útnak a Crew-12 legénységét a Nemzetközi Űrállomásra

🚀 A Crew-12 űrhajósai február 11-én indulnak a Nemzetközi Űrállomásra, csatlakozva a fedélzeten maradt három űrutazóhoz, miután az előző missziót egészségügyi okokból lerövidítették...

szombat 19:55

A BridgePay elleni zsarolóvírus-támadás országos fizetési káoszt okozott

Az egyik legnagyobb amerikai fizetésiátjáró-szolgáltató, a BridgePay ransomware-támadás áldozata lett, ami kulcsfontosságú rendszereit tette elérhetetlenné, és országos kiesést okozott...

szombat 19:37

A Bitcoin 70 000 dollár alá zuhant a piaci pánik közepette

💸 A Bitcoin 60 000 dollár közeléből körülbelül 69 000 dollárra tért magához, miután gyakorlatilag visszaadta azokat a nyereségeket, amelyeket Donald Trump 2024...

szombat 19:19

Az új AirTag, a Nex Playground és az MSI Prestige: a hét legizgalmasabb tesztjei

🏷️ Ebből következően érdemes megérteni, hogy február kellős közepén jócskán volt dolga az Engadget tesztelőinek...

szombat 19:02

Harcosi felszereléssel temettek el angolszász gyerekeket Nagy-Britanniában

Régészek angolszász gyerekeket fedeztek fel, akiket lándzsával, pajzzsal és csatokkal temettek el – olyan felszereléssel, amely általában harcosok sírjaiban található...