2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 19:01

Az angolszász testvérpár tragédiája: végre fény derült egy 1400 éves titokra

🔍 Egy különleges, kettős angolszász temetkezés feltárása során derült ki, hogy 1400 évvel ezelőtt egy tizenéves lány és hét-nyolc éves öccse együtt talált örök nyugalomra egy közös sírban a délnyugat-angliai Cherington mellett...

MA 18:57

Az álruhás zsarolóvírusok új fegyvere: a QEMU

🛡 A Payouts King nevű zsarolóvírus egyre kifinomultabb módszerrel támadja a vállalati rendszereket: a támadók a nyílt forráskódú QEMU emulátort használják arra, hogy rejtett virtuális gépeket futtassanak a megfertőzött számítógépeken...

MA 18:45

Itt a Cloudflare Agent Memory: az MI többé nem felejt

🛠 A korszerű MI-modellek egyik láthatatlan akadálya, hogy véges az a mennyiségű adat, amelyet egyszerre képesek figyelembe venni...

MA 18:35

Az ember evolúciója gyorsul, közben híznak a jegesmedvék

🐻 Ezen a héten a tudomány olyan megfigyelésekkel jelentkezett, amelyek a legmerészebb elképzeléseinket is felülmúlják...

MA 18:23

Az óriás drón, amely 120 kilométeren át pilóta nélkül szállított friss teát

Hihetetlen, de igaz, hogy egy kínai fejlesztésű, kéttonnás, pilóta nélküli drón idén tavasszal sikeresen szállított frissen szedett tealeveleket Guizhou hegyvidékén át...

MA 14:03

Tényleg élt a legendás Artúr király?

🤴 Arthur király történetei mindenki számára ismerősek: a Kerekasztal lovagjai, titokzatos küldetések és lenyűgöző csaták...

MA 13:47

Az MI-ügynökök forradalmasítják Kína kereskedelmét

Kezdetben a digitális vásárlás személyes választásokra és emberi döntésekre épült. Napjainkban azonban Kína online piacain egyre inkább átadják a feladatokat önállóan működő MI-ügynököknek, amelyek nemcsak ajánlatokat tesznek, hanem teljes tranzakciókat bonyolítanak le a felhasználók helyett – gyakorta úgy, hogy ők maguk már a kijelzőt sem érintik...

MA 13:35

Mit kapsz 9 millió forint alatt az elektromos autók használtpiacán?

Néhány éve még elképzelhetetlen lett volna, hogy 9 millió forintból (kb...

MA 13:03

Az MI-tanító botokat mostantól tényleg te irányítod

Tipikus eset, amikor egy fejlesztői platform rosszul dokumentált, elavult információkat tartalmaz, és ezek az adatok rendre bekerülnek a mesterséges intelligenciát betanító rendszerek tudástárába is...

MA 12:57

Az okos alakzatok végre tökéletesre csiszolhatják a Kindle Scribe-ot

Sokan várták már azt a fejlesztést, amely a Kindle Scribe készüléket a digitális jegyzetelők élvonalába repítheti: mostantól lehetőség van okos alakzatok használatára, amelyek azonnal szép, szabályos formát adnak a vázlatoknak...

MA 12:46

Az iPhone 17 véget vet a középkategóriás Androidoknak?

📱 A jelenlegi gazdasági helyzetben az emberek egyre inkább az „elég jó” elv mentén döntenek, amikor okostelefont választanak...

MA 12:34

A dalosmadarak veszedelmes titka: így írják át az agyunkat

Az emberi test folyamatosan megújul: a vörösvértestek négyhavonta, a bőr és a bél nyálkahártyájának sejtjei néhány nap vagy hét alatt teljesen kicserélődnek...

MA 12:24

A valódi veszély: kilenc perc alatt lenyúlhatják a bitcoinodat?

🔒 A bitcoin védelmi rendszere eddig megoldhatatlannak tűnő matematikai rejtvényeken alapul, de a kvantumszámítógépek megjelenése mindent átírhat...

MA 11:57

Az ötven felettiek titkos fegyvere lehet a kitörés

💪 Érdemes megérteni, hogy a modern fitneszipar által kínált bonyolult gépek, hosszú futópados edzések vagy trendi kondibérletek nem feltétlenül kínálják a legjobb megoldást annak, aki erős és egészséges szeretne maradni ötvenéves kor felett...

MA 11:46

A kerékpáros biztonság nagy áttörése: apró, mégis zseniális kütyü

🚲 Például amikor egy komoly bringás baleset után újragondolod, hogyan navigálsz a városban biciklivel, hamar rájössz, hogy a kormányra szerelt okostelefon nem a legbölcsebb választás...

MA 11:34

Az Apache ActiveMQ súlyos hibájára vadásznak a hackerek

🕵 Az Apache ActiveMQ kritikus, nemrég befoltozott biztonsági hibáját már aktívan kihasználják a támadók...

MA 11:12

Az iráni sokk: Szédületesen hasítanak a kriptórészvények

📈 Hihetetlen, de mégis igaz, hogy a bitcoin az utóbbi két hónap legmagasabb árfolyamát érte el, közel 78 000 dolláron (27,7 millió forint), miután kedvező hírek érkeztek az iráni háború lezárásának lehetőségéről és a Hormuzi-szoros megnyitásáról...

MA 11:04

Az MI-ügynökök lázadnak: védtelenek a cégek?

A vállalatok zöme továbbra is tehetetlen a harmadik szintű MI-ügynökök jelentette fenyegetésekkel szemben, miközben ezek az automatizált rendszerek egyre bátrabban lépnek át a biztonsági vonalakon...

MA 10:56

A 2026 előtti RAM-pánik felpörgeti az új PC-k vásárlását

💻 Fontos kérdés, hogy mi áll a világszerte tapasztalható, hirtelen megnövekedett számítógép-vásárlási hajlandóság mögött...

MA 10:50

Az összeütköző fekete lyukak gravitációs hullámai elérhetik a Földet

🔴 Egy, a Földtől 500 millió fényévre található galaxisban két óriási fekete lyuk sodródik végzetes összeütközés felé, amelynek hatásait akár száz éven belül is megérezheti a Föld...

MA 10:36

Az agy programozza a fájdalmat: miért nem múlik a krónikus szenvedés?

Például egy törött kar hamarabb gyógyul, hiszen a begipszelés, a fájdalomcsillapítás és néhány jó tanács gyorsan visszaterel a normális életbe...

MA 10:29

Az eltűnt óriástó nyomában: tényleg így született a Grand Canyon?

🚀 Új kutatások szerint a Colorado-folyó nem egyből vájta ki a Grand Canyont, hanem előbb egy hatalmas tóban gyűlt össze, és csak később szakadt át, hogy megkezdje ma ismert útját a mély szurdokon keresztül...

MA 10:23

Az MI betör a dizájnba: jön a Claude Design, a Figma réme?

A dizájnszoftverek piacára új kihívó érkezett: az Anthropic bemutatta legújabb fejlesztését, a Claude Design-t, amely képes teljes értékű, vizuálisan kidolgozott terveket, interaktív prototípusokat, prezentációkat, one-pagereket és marketinganyagokat készíteni egyszerű szöveges utasításokra...

MA 10:15

Az orosz kriptóóriást kifosztották: 5,5 milliárd forint tűnt el

💰 A Kirgizisztánban bejegyzett, amerikai szankciókkal sújtott Grinex kriptotőzsde bejelentette, hogy leállítja működését, miután 5,5 milliárd forint (15 millió dollár) értékű vagyont loptak el tőle – állítólag „barátságtalan országok” titkosszolgálatainak közreműködésével...

MA 10:02

Az európai Mars-szonda végre zöld utat kap: a NASA újra beszáll

A NASA ismét bekapcsolódott az Európai Űrügynökség (ESA) Rosalind Franklin marsjárójának küldetésébe, amelynek célja az élet nyomainak keresése a vörös bolygón...

MA 09:58

Az alvilági kártyapiac titkai: így választanak boltot a bűnözők

💳 Az ellopott bankkártyaadatokkal kereskedő alvilági piac mindig is ingatag, kiszámíthatatlan terepnek számított, ahol még a tapasztalt bűnözők is gyakran esnek csalás, lehúzás vagy hatósági lebuktatás áldozatául...

MA 09:22

Az Android Canary végre megérkezik a régebbi Pixelekre is

Áprilisban jelentős mérföldkőhöz érkezett a Google: az Android Canary 2604 verziója már nemcsak a legújabb Pixel 8-as sorozaton fut, hanem immár elérhető a Pixel 6 és Pixel 7 szériára, valamint a Pixel Foldra és a Pixel Tabletre is...

MA 09:18

Az MI-képes weboldalak új korszaka: megérkezett az Agent Readiness-pontszám

🤖 A web evolúciója folyamatosan új elvárások elé állítja a fejlesztőket és a vállalkozásokat...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/18

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Sight Words: Dolch Coach (iPhone/iPad)Ez a játék a Dolch Sight Words mind az öt szintjét lefedi, így segít elsajátítani az automatikus szófelismerést, ami elengedhetetlen a funkcionális írástudáshoz...