2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 11:23

A DNS-ed többet árul el a sikeredről, mint a neveltetésed?

🤓 Kezdetben mindenki azt hitte, hogy a siker kulcsa a családi háttérben és a gondos nevelésben rejlik...

MA 11:12

A kalap, amiért egykor mindent kockára tettek az angolok

🎩 Az ember azt hihetné, a kalap sosem volt más, mint divatos kiegészítő vagy a rossz idő elleni védelem...

MA 11:01

A tudósok véletlenül rábukkantak az élet szabályait felrúgó DNS-re

Újragondolásra késztet, mennyire állandóak a biológia alapelvei: egy mikroszkopikus élőlény váratlanul felülírta az egyik legfontosabbat...

MA 10:50

Az AI-kor piackutatása: 60 ezer digitális iker válaszol azonnal

🌐 Fontos kérdés, hogy a gyorsan változó világban mennyire számít még a hagyományos piackutatás, ha egyetlen TikTok-videó már világszerte trenddé emelhet egy márkát néhány óra alatt...

MA 10:43

Az intézmények banki mintára kérik a kriptóhiteleket

💳 Bitcoinnal foglalkozó nagyvállalatok ma már nem elsősorban az úttörő decentralizált pénzügyi megoldásokért lelkesednek, hanem az átláthatóságot, az egyértelmű szabályokat és a jól értelmezhető kockázatkezelést keresik...

MA 10:29

A modern kiberbűnözés alappillére: 15 ezres MI-befektetési csaláshálózat leleplezve

Jellemző példa erre, hogy egy több mint 15 000 oldalból álló, kiterjedt hálózat hirdeti hamis MI-befektetési ajánlatait, és mindehhez népszerű hirdetéskövető szolgáltatásokat használ fel...

MA 10:23

A KitchenAid félautomata eszpresszógép zseniális – minden kézi gépre lapos fenekű portaszűrőt

☕ Érdemes megvizsgálni, mennyire változtatja meg a reggeli kávéélményt a KitchenAid legújabb félautomata eszpresszógépe, amely egyszerre ötvözi a klasszikus dizájnt és a modern, letisztult kezelőfelületet...

MA 10:15

Az American Bitcoin 23%-kal vágta a költségeit, AI-ra áll át

💸 Az American Bitcoin, amely a Trump fivérekhez köthető, az első negyedévben jelentősen csökkentette a bitcoinbányászati költségeit: 23%-kal kevesebbet, mintegy 13,1 millió forintot (kb...

MA 09:50

Az Atari megvette a Wizardry jogait, indul az újrakiadás-hadjárat

🎮 Érdemes megvizsgálni, milyen hatással lehet a klasszikus szerepjátékok világára, ha egy olyan ikonikus sorozat, mint a Wizardry, visszatér a piacra...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 5/7

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     DualShot Recorder (iPhone/iPad)A DualShot Recorder alkalmazás lehetővé teszi, hogy egyszerre függőleges és vízszintes videófelvételeket készíts...

MA 09:01

Az első határokon átnyúló tokenizált állampapír-visszaváltás: Ripple és JPMorgan az XRP Ledgeren

💰 Fontos kérdés, hogy a pénzügyi rendszerek miként tudnak alkalmazkodni a valós idejű, határokon átnyúló tranzakciókhoz...

MA 08:57

A tűzszünet-remények emelik a részvényeket, a bitcoin-rali megtorpan, Dogecoin -4%

📈 Erős hét után enyhe megtorpanás látható a főbb kriptovalutáknál, miután a nemzetközi részvénypiacok új rekordokat döntöttek...

MA 08:50

A cumberlandi szénbányák mélyéből tiszta energia tör fel

Az egykori bányaváros, Cumberland, egykor szinte teljes egészében a szénbányászatra épült: generációkon át ez határozta meg a mindennapokat, több ezer embernek adott munkát, és évente millió tonna szenet küldtek innen a világ különböző pontjaira...

MA 08:43

Három jel, hogy a bitcoin 32 millió forintra tör

Az elmúlt három hónapban a bitcoin árfolyama közel 23 millió forintról 29 millió forint fölé emelkedett, és újabb áttörésre készülhet...

MA 08:36

Itt a robotok appboltja: nyílt forrású Reachy Mini, 200+ app

🤖 A technológia világát hosszú időn át a mobilalkalmazások uralták, ám most új korszak kezdődik: nemcsak a telefonodra, hanem a robotodra is letölthetsz programokat...

MA 08:22

A NASA lenyűgöző felvétele: örvénylő felhők és ritka sarki vihar Alaszka felett

Dél-Alaszka télbúcsúztatója lélegzetelállító látványosságot hozott, amelyet a NASA egyik műholdja örökített meg...

MA 08:15

A techóriásokat is rettegésben tartják az MI-ügynökök?

😱 Az interneten egyre jelentősebbé válnak az MI-ügynökök, és bizonyos jelek arra utalnak, hogy 2035-re már többen lesznek, mint a tényleges internethasználók...

MA 08:02

Az éjszaka háromszor fényesebb lehet: műholdak veszélyeztetik a Vera C. Rubin Obszervatóriumot

Kezdetben az éjszakai égbolt viszonylagos sötétsége lehetővé tette, hogy a földi csillagászati műszerek soha nem látott részletességgel térképezhessék fel az univerzumot...

MA 07:57

A Wall Street elszámolóháza villámgyors blokkláncokat hajszol vállalati események tokenizálásához

A világ egyik legnagyobb klíringházaként ismert DTCC forradalmi lépésre készül: a pénzügyi piacok egyik legkevésbé látványos, de a működés szempontjából kulcsfontosságú területét, a vállalati eseményeket – például osztalékfizetéseket és felvásárlási ajánlatokat – szeretné blokkláncra vinni...

MA 07:50

A Stingray drón felszáll: az első autonóm tanker anyahajóról

✈ Mérföldkőhöz érkezett az amerikai haditengerészet új MQ-25A Stingray drónja, amely sikerrel teljesítette első, kétórás próbarepülését Dél-Illinois fölött...

MA 07:43

A mai NYT Kapcsolatok: tippek és megoldások (csütörtök, május 7., #1061)

💡 Jellemző példa arra, mennyire meg tudja tréfálni a játékosokat az NYT Kapcsolatok (Connections) mai feladványa...

MA 07:29

Az agy memóriaközpontja nem üres lap – így születünk

💡 Jó példa erre, hogy amikor megszületünk, az agyunk memóriaközpontja nem üres, ahogy sokáig hittük...

MA 07:22

A százéves Sir David Attenborough: 13 meglepő tény a legendáról

Megemlíthető továbbá, hogy kevés ember volt akkora hatással a természet bemutatására a képernyőn, mint Sir David Attenborough...

MA 07:14

Eljött a kriptó nagy pillanata – állítják a miami Consensuson

💸 Érdemes megvizsgálni, hogy a kriptovaluták már túlléptek-e a spekulatív fázison, és egyre inkább a mindennapok pénzügyi rendszerének részévé válnak...

MA 07:08

A nagy Sims-kvíz: bizonyítsd, igazi veterán vagy!

🎮 Különösen igaz ez akkor, ha minden évben elkap a vágy, hogy újjáépítsd a környékedet a The Simsben, és a nulláról kezdd újra a várost...

MA 07:01

A növekedés fizikájának 40 éves rejtélyét végre megfejtették a tudósok

🚀 A növekedés sokféle rendszerben figyelhető meg – legyen szó kristályokról, baktériumokról vagy éppen lángfrontokról –, és már régóta próbálják megfejteni a fizikusok, hogyan lehet leírni és előre jelezni ezt a folyamatot...

MA 06:57

Az androidos trójaiak „varázsütésre” eltűnnek – milliók veszélyben

Több millió Android-felhasználót fenyegetnek olyan új trójai vírusok, amelyek különösen ravasz módszerekkel rejtőznek el a telepítés után...

MA 06:50

Az ingatlanmogul, aki bitcoinnal felülmúlhatja a REIT-eket

💰 Felmerül a kérdés, le lehet-e körözni a hagyományos befektetési alapokat a megszokott ingatlanbefektetés és a kriptó ötvözésével...

MA 06:44

A 99 éjszaka az erdőben 14,2 milliós játékosrekordot döntött Robloxon

🌲 A legtöbb gyerek ma az ideje nagy részét online játékokban tölti, azonban a Roblox külön kategória: ez az a platform, amelynek világszerte elképesztően népes a rajongótábora...