2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 18:34

Az igazi csavar: a „negatív” finanszírozás bikás a bitcoinnak

💸 Erősen megoszlanak a vélemények a bitcoin négyéves ciklusainak jelentőségéről, miközben az év végi árfolyam-becslések is igen széles sávban mozognak – van, aki nem vár új csúcsot, mások akár 54–90 millió forintot is elképzelhetőnek tartanak...

MA 17:46

A kerozinhiány árnyéka vetül Európára a nyári szezon előtt

⛽ Európa repterei egyre nagyobb kihívások elé néznek, ahogy közeledik a nyári vakáció időszaka...

MA 16:56

Az MI-re vált a Core Scientific: 208 millió dollárnyi bitcoint eladott

Az egykori bitcoinbányász-óriás Core Scientific már nem a kriptapiacon látja a jövőjét...

MA 16:45

Az MI DJ végre jön: a Spotify Európában is elindítja

Évekig tartó várakozás után a Spotify-használók végre megszabadulnak az egyik legbosszantóbb hiányosságtól: az MI DJ mostantól újabb országokban is elérhető...

MA 16:35

A Google új AI-ja Redditről és közösségi médiából gyűjt szakértői tippeket?

🔍 A Google új keresőeszköze röviden összefoglalja a Redditről és más közösségi médiából származó tanácsokat: az úgynevezett „Szakértői tanácsok” (Expert Advice) panel előnézetben mutatja a nyilvános online beszélgetések és egyéb források nézőpontjait...

MA 16:23

A nagy bitcoin-kitörés elmaradt – a történelem óvatosságra int

Az elmúlt napokban a bitcoin árfolyama közel járt ahhoz, hogy áttörje a régóta figyelt 200 napos egyszerű mozgóátlag szintjét, de végül 81 000 dollár környékére húzódott vissza...

MA 16:13

Az Andes-vírus, az egyetlen emberről emberre terjedő hantavírus, lecsapott az óceánjárón

Az Atlanti-óceánon haladó MV Hondius nevű luxushajón nyolc ember fertőződött meg hantavírussal, közülük három meghalt, és többen továbbra is orvosi kezelésre szorulnak...

MA 16:02

Az amerikai részvénypiaci rali a mánia küszöbén?

A tőzsde történetének egyik legsodróbb árfolyam-emelkedése új csúcsokra repítette a részvényeket...

MA 15:56

A Bitcoin nyeri az intézményi befektetőkért vívott háborút

Ebből következően érdemes megérteni, hogy a befektetési szféra szemében egyre fontosabbá válik a biztonság...

MA 15:45

Az új hormonterápia megálljt parancsol a veszélyes, korral gyűlő hasi zsírnak

Az életkor előrehaladtával a test zsíreloszlása jelentősen átalakul. A bőr alatti, úgynevezett szubkután zsír önmagában még hasznos is, viszont a zsigeri zsír már komoly egészségügyi kockázatot jelent...

MA 15:34

Az altcoinok szárnyalnak, a bitcoin és az ether lejön a heti csúcsról

A hét derekán alaposan átrendeződött a kriptovaluta-piac, amikor az alternatív tokenek (altcoinok) váratlanul túlszárnyalták a vezető szereplőket...

MA 15:23

Az adathalászok Google-hirdetéseket lovasítanak meg, GoDaddy-eszközt mímelve

Ami először apróságnak tűnt, mára veszélyes átveréssé nőtte ki magát: csalók a Google-hirdetéseit használják fel arra, hogy ártalmatlan keresési találatok mögé bújva felhasználókat ejtsenek csapdába...

MA 15:12

Az Ozempic titka: miért hat jobban egyeseknél?

🧠 Erre utal többek között az, hogy azok a cukorbeteg páciensek, akik elsősorban azért esznek túl, mert csábító az étel látványa vagy illata, sokkal eredményesebben fogynak, és javítják vércukorszintjüket Ozempic (vagy ahhoz hasonló GLP-1-gyógyszer) szedése esetén, mint azok, akik inkább stressz vagy rossz hangulat miatt esznek...

MA 15:01

A trójai falóként támadó új gyógyszer látványosan fogyaszt

🧪 Fontos kérdés, hogy miként lehet hatékonyabban és biztonságosabban kezelni az elhízást és a 2-es típusú cukorbetegséget...

MA 14:56

Az alaplapgyártók válságban: egyre kevesebben építenek új PC-t

📈 A PC-építés világa megrendült, az alaplapgyártók eladásai évtizedes mélyponton vannak. Nem elég, hogy folyamatosan drágul a memória, a közel-keleti háborús helyzet is árfelhajtó hatást gyakorol, így a saját gépet építők egyre kevésbé érzik érdemesnek új gépbe fektetni...

MA 14:34

Az angolok védőérméiből viking ékszer lett – szinte tragikomikus

💎 Két különleges ezüstpénz került elő Dániában, amelyeket eredetileg Angliában vertek a viking portyázók elleni védelem reményében...

MA 14:23

A tartós BTC-bikapiac milliónyi tokent söpörhet el – Ben Cowen

📈 A kriptovilág alapvetően a kockázatról szól, de az elmúlt években sosem látott áradattal jelentek meg az értéktelen, spekulatív tokenek...

MA 14:01

Az A fiúk fináléja nem töltelék – Kripke visszavág

💥 Az A fiúk (The Boys) ötödik, egyben befejező évada alaposan felkavarta a rajongók állóvizét...

MA 13:57

A One UI 8.5 végre megérkezett a Galaxy készülékekre – itt a lista

Külön említést érdemel, hogy hosszas várakozás után a Samsung végre megkezdte a One UI 8...

MA 13:45

A házvendég 10 milliót követel Renée Zellwegeréktől és Ant Ansteadtól

😡 Ant Anstead bérelt házában történt furcsa baleset komoly jogi vitát szült...

MA 13:35

Az új vízalapú akku a 24. századig bírja – és lebomlik

Egy új, vizes alapú akkumulátor minden eddiginél hosszabb élettartamot ígér, miközben teljesen biztonságosan kidobható a környezetbe: semmilyen mérgező anyagot nem tartalmaz...

MA 12:34

Yat Siu szerint a jövő 100 milliárd MI‑ügynök, a metaverzum csak háttér

🤖 A metaverzumról alkotott kép radikálisan átalakul. Yat Siu, az Animoca Brands elnöke szerint a jövő már nem az emberek VR-sisakos álomvilágába vezet, hanem a digitális háttérben dolgozó, önjáró MI-ügynököké...

MA 12:23

A BNY, a világ legnagyobb letétkezelő bankja, bővíti kriptoszolgáltatásait Abu-Dzabiban

💰 Jellemző példa erre, hogy a New York-i BNY, amely 59 billió dollár (kb...

MA 11:23

A DNS-ed többet árul el a sikeredről, mint a neveltetésed?

🤓 Kezdetben mindenki azt hitte, hogy a siker kulcsa a családi háttérben és a gondos nevelésben rejlik...

MA 11:12

A kalap, amiért egykor mindent kockára tettek az angolok

🎩 Az ember azt hihetné, a kalap sosem volt más, mint divatos kiegészítő vagy a rossz idő elleni védelem...

MA 11:01

A tudósok véletlenül rábukkantak az élet szabályait felrúgó DNS-re

Újragondolásra késztet, mennyire állandóak a biológia alapelvei: egy mikroszkopikus élőlény váratlanul felülírta az egyik legfontosabbat...

MA 10:50

Az AI-kor piackutatása: 60 ezer digitális iker válaszol azonnal

🌐 Fontos kérdés, hogy a gyorsan változó világban mennyire számít még a hagyományos piackutatás, ha egyetlen TikTok-videó már világszerte trenddé emelhet egy márkát néhány óra alatt...

MA 10:43

Az intézmények banki mintára kérik a kriptóhiteleket

💳 Bitcoinnal foglalkozó nagyvállalatok ma már nem elsősorban az úttörő decentralizált pénzügyi megoldásokért lelkesednek, hanem az átláthatóságot, az egyértelmű szabályokat és a jól értelmezhető kockázatkezelést keresik...

MA 10:29

A modern kiberbűnözés alappillére: 15 ezres MI-befektetési csaláshálózat leleplezve

Jellemző példa erre, hogy egy több mint 15 000 oldalból álló, kiterjedt hálózat hirdeti hamis MI-befektetési ajánlatait, és mindehhez népszerű hirdetéskövető szolgáltatásokat használ fel...