2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 07:35

Az óriások bukása után jön a közösségi média új korszaka?

A YouTube és a Meta jelentős perekben veszítettek a közösségi médiafüggőség miatt, amelyek komoly változásokat indíthatnak el az online platformokon...

MA 07:29

Az endometriózis nem csupán nőgyógyászati baj: az egész test betegsége

Fontos kérdés, hogy miért nehéz kezelni az endometriózist, és miért okoz a betegség szerteágazó tüneteket...

MA 07:22

Az új technológia véget vethet a kifutópályai ütközéseknek

Egy ködös téli napon Austin repülőterén három évvel ezelőtt majdnem katasztrófa történt: egy FedEx teherszállító gép hajszál híján egy utasokkal teli Southwest Airlines gépnek ütközött, miután mindkettő ugyanarra a kifutóra kapott engedélyt...

MA 07:16

Az olcsó Nebula P1i tényleg űrtechnikát varázsol a nappaliba?

A Soundcore Nebula P1i első pillantásra egy átlagos, kedvező árú házi projektornak tűnik, de már az első használatnál meglep...

MA 07:10

Az RX 9070 XT új jégkirálynője: kipróbáltuk a Gigabyte Gaming OC Ice-t

Felmerül a kérdés, hogy egy igazán prémium videokártya mennyivel nyújt többet az alapmodelleknél, és megéri-e a felárat...

MA 06:35

Itt a lézerrel kalibrált GPS-műholdak korszaka: még pontosabb helymeghatározás

🛰 Érdemes megemlíteni, hogy a GPS és más hasonló rendszerek már eddig is forradalmasították, milyen egyszerűen és pontosan lehet meghatározni bármilyen földi pontot...

MA 06:29

Az FBI-főnök e-mailjét feltörték: kínos fotók, kapkodó magyarázkodás

🕵 Az FBI igazgatója, Kash Patel személyes Gmail-fiókját iráni kapcsolatokkal rendelkező Handala hackercsoport törte fel, és a szerzett információkat – köztük fotókat, privát dokumentumokat, valamint levelezéseket – nyilvánosságra hozták...

MA 06:22

A The Elder Scrolls: Blades búcsúzik: vége a mobiljátéknak

Most őszintén, könyörgöm, észrevetted már, hogy néhány játék lassan, csendben eltűnik a süllyesztőben?..

MA 06:15

A víz rejtett ereje mindent megváltoztat – az élet kulcsa

Világszerte jelen van, létfontosságú, mégsem viselkedik úgy, mint a legtöbb folyadék...

MA 06:05

Történelmi események a mai napon (Március 30.)

Ezen a napon lázadás, békekötés, merénylet és technológiai áttörés is formálta a világot...

MA 06:01

Az MI legyőzte a fordítót: ember a gépek árnyékában

🤖 Te is azt hitted, hogy egy középkori RPG vérében csak a kardok és páncélok csörögnek?..

vasárnap 21:46

Az IBM fedélzeti számítógépei: az Űrsikló rejtett titánjai

1981. április 12-én, éppen húsz évvel Jurij Gagarin első űrutazása után, az Űrsikló Floridából az égbe emelkedett...

vasárnap 21:34

Az audiorajongók nagy átverése: az 1,4 milliós kábel mítosza

🔊 Mi történik, ha egy 1,4 millió forintos luxus hifi-kábelt eresztenek össze egy 2500 forintos kábellel?..

vasárnap 21:23

Az újabb gyomros: újra emelkedik a PlayStation ára

A Sony ismét emeli a PlayStation árát: kevesebb mint egy éven belül másodszor drágul a népszerű konzol...

vasárnap 21:02

A kék halál kísért a Microsoft standján

Senki sem várta volna, hogy a Microsoft a saját standján, egy amerikai biztonsági konferencia közepén nosztalgiázik a kék halál képernyőjével...

vasárnap 20:56

A Pixel 10a legidegesítőbb hibái – és így orvosolhatod őket

🙁 Bár az új Pixel 10a március óta elérhető, súlyos hibákkal eddig nem találkoztak a magyar felhasználók, néhány apróbb, idegesítő problémával azonban továbbra is számolni kell – ahogy az már megszokott egy frissen piacra dobott telefonnál...

vasárnap 20:45

Az osztrák kormány betiltaná a közösségi médiát 14 év alatt?

🕵 Na most kapaszkodj, mert Ausztria bedobott egy óriásit: jöhet a totális közösségimédia-tilalom a 14 év alattiak számára...

vasárnap 20:35

Az MI-felhő szétzúzza a zöld tech álmait

A közelmúltban a digitális óriások eltökélten haladtak afelé, hogy működésüket teljes egészében megújuló energiára állítsák át, ezzel is hozzájárulva a klímaváltozás elleni harchoz...

vasárnap 20:13

A régi iPhone-ok az iPhone 17E legkeményebb ellenfelei

Érdemes megvizsgálni, hogy mennyire éri meg az új iPhone 17E-t választani, ha nagyjából hasonló áron, akár még jobb alternatívák is léteznek a korábbi iPhone-modellek között...

vasárnap 19:56

Az óceánok műanyaga nem tűnt el – már belélegzed, megeszed

Egy lényeges szempont, hogy mi történik az eltűntnek hitt óceáni műanyaggal...

vasárnap 18:01

Az űrnél hidegebb hűtők tartják életben a kvantumszámítógépeket

A csillogó arany csillárra hasonlító szerkezet, amely mostanában a kvantumszámítógépek emblémája lett, valójában egy brutális hűtőszekrény...

vasárnap 17:57

A mindennapok láthatatlan szikrái: az elektrosztatikus töltés titkai

Az elektrosztatikus jelenségeket mindenki ismeri: ha lufit dörzsölsz a hajadhoz, a hajszálak szétállnak, vagy egy szőnyegen végigsétálva apró kisülésekkel sokkolsz másokat...

vasárnap 17:45

Az Insilico és az Eli Lilly óriásüzlete: jönnek az MI-gyógyszerek

Tipikus példa arra, amikor az MI nemcsak gyorsít, hanem új szintre emeli a gyógyszerkutatást: az amerikai gyógyszeróriás, az Eli Lilly, 1000 milliárd forintos (2,75 milliárd USD) szerződést kötött a hongkongi Insilico Medicine-nel, hogy világszerte elérhetővé tegyék a mesterséges intelligencia által fejlesztett gyógyszereket...

vasárnap 17:34

Az agyvérzés rejtélyes fiatalító ereje: új esély az agynak?

Érdemes megérteni, hogy az agyvérzés nem csupán pusztít: meglepő módon elindíthat egyfajta fiatalító folyamatot az agyban...

vasárnap 17:24

Ha kialszik a Nap: mi vár az emberiségre?

☀ A Föld története összeforrt a Nappal: ez a forró, hatalmas gömb ad állandó meleget és fényt, formálja az éghajlatot és a vizek körforgását...

vasárnap 17:12

Az osztrákok szigorítanak: 14 év alatt tiltott a közösségi média

🚫 Minden eddiginél radikálisabb húzásra készül Ausztria: most tényleg el akarja tiltani a 14 év alattiakat a közösségi média használatától...

vasárnap 17:01

Az Apple TV-sek kiakadtak: a Netflix tényleg elrontotta az appot

🗴 A Netflix legújabb frissítése alaposan felborzolta az Apple TV-t használók kedélyeit...

vasárnap 16:56

Az eldobható kesztyűk meghamisítják a mikroműanyag-méréseket?

A mikroműanyagok kutatása közben gyakran használt nitril- és latexkesztyűk jelentősen torzíthatják a laboreredményeket – legalábbis ez derül ki a Michigani Egyetem friss vizsgálatából...

vasárnap 16:45

Az önjavító űrkamerák forradalma: túlélés a Jupiter poklában

🚀 Felmerül a kérdés, hogyan működhetnek hosszú távon űrszondák kamerái egy olyan extrém sugárzású környezetben, mint a Jupiter körüli térség...