2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 20:23

Az udvar koronázatlan királya: a Ninja Fireside360 mindent felfűt

A tavaszi esték hűvös leheletére legtöbben gyorsan visszavonulnak a négy fal közé, amikor kint elfogy a meleg...

MA 20:12

Az iráni hekkerek imádnak hencegni, de ritkán ütnek nagyot

Képzeld el, hogy mindenki arról beszél, mennyire menők az iráni hekkerek, miközben a valóság egészen más képet mutat...

MA 20:02

Az okosotthonod végre nem falja fel a sávszélt

Az okos otthoni biztonsági rendszered mostantól sokkal hatékonyabb lehet: a legújabb Matter 1...

MA 19:58

A svéd iskolák visszatérnek a tankönyvekhez: újra hódít a papír

📚 Svédországban egyre inkább háttérbe szorulnak a digitális eszközök a tantermekben: a hagyományos könyvek és a kézírás ismét előtérbe kerülnek...

MA 19:45

A Hershey visszahozza a Reese’s eredeti ízét – végre!

🍫 Évtizedek óta rajonganak érte, de a Reese’s mogyoróvajas csészék (Reese’s Peanut Butter Cups) népszerűsége ellenére az utóbbi időben változtattak a recepten: néhány különleges alkalomra készült terméken, például a kis húsvéti tojásokon, csökkent a valódi csokoládé aránya, olcsóbb összetevőkkel helyettesítve azt...

MA 19:35

Az átlátható DNS, ami nem kémkedik: 1.1.1.1

Nyolc évvel ezelőtt indult útjára az 1.1.1.1 nyilvános DNS-feloldó, amelynek célja nem kevesebb volt, mint a világ leggyorsabb, a magánszférát tiszteletben tartó szolgáltatásának létrehozása...

MA 19:23

Az új Gmail MI‑postaláda tényleg csak a gazdagoké?

Felmerül a kérdés, hogy vajon tényleg mindenkinek szüksége lenne-e a Gmail vadonatúj, MI-alapú postaládájára...

MA 19:12

Az MI nem elveszi a munkánkat, átformálja – az Nvidia-vezér tanácsai

A fehérgalléros dolgozók közül sokan aggódnak, hogy az MI miatt veszélybe kerülhetnek a munkahelyeik...

MA 18:57

Az ügyfélszolgálati MI: jó ötlet vagy csapnivaló élmény?

Az automatizált ügyfélszolgálat egyre több vállalatnál válik normává, ám a felhasználók sokszor frusztráló élményekről számolnak be...

MA 18:45

A leszámolás ideje: Harry herceg hadat üzen a techóriásoknak

Washingtonban mondott beszédében Harry herceg kemény hangot ütött meg a közösségi oldalak működésével kapcsolatban, amikor elismerően szólt két friss, nagy horderejű perről, amelyek főként a gyerekek védelmét érintik...

MA 18:34

Az álmos hajnalban kezdődik a műszak: segít az új gyógyszer?

😴 A korán kezdődő munkanapok milliók mindennapjait keserítik meg, hiszen a hajnalban kezdődő műszak biológiailag kényszerű kompromisszum: az agy ilyenkor még alvásra van programozva, a teljesítmény pedig jelentősen csökken...

MA 18:23

A SpaceX tőzsdére készül? Rakétasebességgel a billiók felé

🚀 Elon Musk újra a figyelem középpontjában: a SpaceX titokban beadta a tőzsdei bevezetéshez szükséges papírokat az Egyesült Államok Értékpapír- és Tőzsdebizottságához...

MA 17:56

Az MI diktál, vége a menedzserek korszakának?

Jack Dorsey, a Block alapítója és vezérigazgatója szerint a vállalatok egy új működési korszak küszöbén állnak, amelyben a középvezetői réteg szerepét nagyrészt a mesterséges intelligencia veheti át...

MA 17:34

A Google újabb kritikus, nulladik napi rést zárt be a Chrome-ban

A Google sürgősséggel adott ki frissítést a Chrome böngészőhöz, miután felfedeztek egy negyedik, ebben az évben aktívan kihasznált nulladik napi hibát...

MA 17:25

Az Apple öt legkeményebb kihívása fél évszázad után

Ez a jelenség jól illusztrálható azzal, hogy az Apple, amely évtizedeken át forradalmasította a technológiai világot és termékeivel új szokásokat teremtett, ma saját történetének egyik legkritikusabb szakaszához érkezett...

MA 17:13

A vízallergia réme: kiütések minden egyes zuhany után

Egy kanadai tinédzser élete teljesen felborult, amikor szinte egyik napról a másikra testét ismeretlen eredetű csalánkiütések lepték el, valahányszor víz érte a bőrét...

MA 17:01

Az intézményi tőke rohamot indít: jön a tokenizáció hulláma

Érdemes megvizsgálni, hogy a tokenizáció, vagyis eszközök blokklánc-alapú nyilvántartása és átruházása miért vált az utóbbi évek egyik legnagyobb kriptós hívószavává...

MA 16:46

A gyerekek sincsenek biztonságban az MI által készített YouTube-videóktól

🚧 A gyerekek elképesztő mennyiségben néznek mesterséges intelligenciával gyártott meséket és videókat a YouTube-on...

MA 16:02

Az MI-ügynökök támadása: védtelen SOC a célkeresztben

🛡 2026 tavaszán a világ legnagyobb kiberbiztonsági konferenciáján futótűzként terjedt egy nyugtalanító felismerés: soha nem volt még ilyen rövid az ablak, amelyen keresztül a védelmezők megállíthatják a támadásokat...

MA 15:57

Az antibiotikum-rezisztens baktériumok Achilles-sarka: áttörés született

💉 Ilyen lehet például, amikor egy szokatlan molekulára bukkanunk egy rettegett ellenség felszínén...

MA 15:45

Az új Fitbit-edző a ciklusodra és az étrendedre is figyel

💪 A Gemini-alapú Fitbit egészségügyi edzője mostantól még több funkcióval segíti a felhasználókat...

MA 15:34

Az Artemis II indulhat, de az időjárás közbeszólhat

A NASA továbbra is április 1-re tervezi az Artemis II küldetés indítását, és jelenleg sem az űrhajóval, sem a csapattal kapcsolatban nincs jelentős technikai probléma...

MA 15:24

A cseh lottómilliárdos, aki befektetéseivel megelőzte a világot

🎰 Csehországot legtöbben a Škoda, a Pilsner Urquell és Václav Havel nevével kötik össze, de most felkerült a listára egy új világmárka is...

MA 15:13

Az óceán urai: így élték túl a tintahalak a tömeges kihalást

🐬 A tintahalak és a tintahalak rokonai, vagyis a szepiák (cuttlefish), a tengerek legelképesztőbb lényei közé tartoznak...

MA 15:02

Az igazi milliárdos történet: Steve Jobs nem az Apple-ből lett szupergazdag

Steve Jobs neve egybeforrt az Apple-lel, az iPhone‑nal, iPaddal és iMaccal, mégis egészen másból származott az a vagyon, amely később milliárdossá tette...

MA 14:56

Felbőgtek a CERN új szupergokartjai az LHC alagútjában

Tipikus eset, amikor a tudomány és a praktikum találkozik: a CERN mérnökei ezúttal egy olyan szupergyors gokartot fejlesztettek, amellyel a nyáron induló nagyszabású karbantartási munkák idején rekordsebességgel száguldozhatnak majd a munkatársak a 27 kilométeres föld alatti alagútban...

MA 14:46

Az igazi Soundwave: gyerekkori álom, horror árcédulával

🔊 Tipikus eset, amikor gyerekkori vágyaink végre teljesülnek – csak éppen annyi pénzért, amit felnőtt fejjel már kétszer is meggondolunk...

MA 14:35

A költözés sem akadály: ezeket a biztonsági kütyüket vidd magaddal

Vannak helyzetek, amikor egy lakás vagy ház csak ideiglenes otthon: katonacsaládok, albérlők, lakásfelújítók vagy akik gyakran költöznek, gyakran szembesülnek azzal, hogyan biztosítsák a védelmet...

MA 14:24

Az iOS 26.4 forradalmi? Mutatjuk, mi változik igazán

Már letölthető az iOS 26.4, amely az utóbbi idők talán legfontosabb frissítése az iPhone-ok számára...