2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 18:02

Az adatlopási botrány után: tényleg minden rendben a LexisNexisnél?

Az amerikai LexisNexis, a világ egyik legnagyobb elemzőcége, nemrég elismerte, hogy adatlopás áldozatává vált, ugyanakkor azt hangsúlyozza, hogy a hackerek csak elavult, lényegtelen adatokat szereztek meg...

MA 18:00

Az új MacBook Pro szintet lép teljesítményben és MI-ben

Az Apple bemutatta legújabb MacBook Pro modelljeit, amelyek az M5 Pro és M5 Max chipekkel érkeznek...

MA 17:39

Az AT&T új csomagokra vált – tényleg egyszerűbb lesz a választás?

📞 Érdemes megvizsgálni, hogy a hazai AT&T-felhasználók számára ténylegesen előrelépés-e a szolgáltató most bejelentett új mobilcsomag-választéka, vagy csak újracsomagolt, jól ismert konstrukciókról van szó...

MA 17:21

Az MI-ügynökök háborúja: a támadók lépéselőnyben

🤓 A kiberbiztonság új korszaka bontakozik ki, ahol az önállóan cselekvő mesterséges intelligencia (MI) ügynökök alapjaiban változtatják meg az erőviszonyokat...

MA 17:02

Az Apple olcsó MacBookkal támad a diákpiacon

Végre érkezik az, amire sokan vártak: az Apple bemutatta a mindössze 599 dolláros (kb...

MA 16:59

Az Aluminium OS berobban: a Google kettős laptopstratégiára vált

A Google közelgő laptopplatformja, az Aluminium OS, 2026-ban debütálhat, és komoly hangsúlyt helyez a modern munkafolyamatokra és a termelékenységre...

MA 16:40

Az Antarktisz valaha teljesen jégmentes volt?

Az Antarktiszt ma gigantikus jégtakaró borítja, de ez nem volt mindig így...

MA 16:22

Az új MacBook Neo: brutális teljesítmény, letisztult dizájn, barátibb ár

💻 Érdekes felvetés, hogy egy csúcstechnológiás Apple‑laptop végre tömegek számára is elérhetővé válik...

MA 13:58

Az évtized francia egészségügyi adatbotránya: 15 millió beteg érintett

Egy francia egészségügyi szoftvercég, a Cegedim Santé rendszerét súlyos, célzott kibertámadás érte, amely során érzékeny betegadatok milliói kerültek veszélybe...

MA 13:39

A nagy MI-leépítési hullám: Túléljük a gépeket?

🤖 Érdemes megvizsgálni, hogy Jack Dorsey, a Block vezérigazgatója nemrég 40%-os leépítést jelentett be, ami megrázta a technológiai világot...

MA 13:21

A sóalapú akkuk forradalma: Végre bírják a telet az elektromos autók?

Továbbá a téli reggelek egyik legnagyobb bosszúsága az elektromos autók tulajdonosai számára, amikor hirtelen, drasztikusan lecsökken járművük hatótávolsága...

MA 11:21

Az Apple M5 Pro és Max: megérkezett az igazi áttörés

Az Apple legújabb fejlesztése, az M5 Pro és M5 Max, új szintre emeli a MacBook Pro teljesítményét: a világ jelenlegi legfejlettebb professzionális laptopprocesszorai mutatkoznak be...

MA 11:02

Az AI-aranyláz nagy nyertesei: három techóriás kaszál világszerte

Februárban elképesztő mennyiségű kockázati tőke landolt a startupoknál, összesen mintegy 68 ezermilliárd forint (189 milliárd USD)...

MA 10:55

A hackerek lecsapnak az OAuth hibáira

🔏 Érdekes felvetés, hogy a legújabb kibertámadások éppen egy régóta elfogadott, megbízhatónak vélt technológiai szabvány, az OAuth hibakezelésében rejlő hiányosságokat használják ki...

MA 10:46

Az MI-unikornisok játszmája: kétféle ár ugyanazért a startupért

A legmenőbb MI-startupok újabb pénzgyűjtési trükköt vetnek be, hogy mindenki őket tartsa a piac igazi nagyágyúinak...

MA 10:29

A MI kiszorítja a fiatalokat, a tapasztaltak maradnak nyeregben

Többek között a Z-generációs fiatalok vannak leginkább veszélyben, miközben a tapasztaltabb dolgozók egyre magabiztosabbak a munkaerőpiacon...

MA 10:19

Az iPhone-hackelés aranykora: állami kiberfegyverek szabadultak el

🔑 Lényeges szempont, hogy az iPhone-ok védelmére fejlesztett rendszerek most komoly veszélyben vannak...

MA 10:01

A titkos agy, amely Csernobilt irányította: a SKALA

A csernobili atomerőmű irányítóterme több volt egyszerű kapcsolótáblánál: a rejtélyes SKALA rendszer volt a reaktor igazi agya...

MA 09:37

Az injektálható mini-máj véget vethet a szervhiány válságának?

Felmerül a kérdés, hogy javítható-e a májelégtelenség invazív műtét nélkül, amikor elkeserítően hosszú a várakozás a szervtranszplantációs listán...

MA 09:28

A kismajom, akit elhagytak – és a hírhedt lélektani kísérlet

Annak vizsgálatára, hogy az érzelmi kötődés mennyire alapvető szükséglet: egy Japánban élő, Punch nevű hím makákó története bejárta a világot, miután anyja elhagyta őt, később pedig társai is kirekesztették az Ichikawa City Állatkertben...

MA 09:02

Az őskorban messze nem voltak kőbe vésve a nemi szerepek

A mai Magyarország területén, az újkőkorszakban élt emberek temetkezési szokásai és munkaelosztása jóval árnyaltabb képet mutatnak, mint azt sokáig gondoltuk...

MA 08:46

A NASA orvosolja az Artemis–2 hibáit, közeleg a holdutazás

Lényeges, hogy a NASA a közelmúltban sikeresen elhárította az Artemis–2 rakéta felső fokozatán jelentkező héliumáramlási hibát...

MA 08:37

A Pentagon ellen kiálló Anthropic tarol az appáruházakban

🚀 Egy technológiai cég ritkán vált ki néhány nap alatt ekkora lelkesedést a hétköznapi emberek körében...

MA 08:30

Az első csillagok nyomai: mit üzennek a piros pöttyök?

Felmerül a kérdés, hogy a James Webb űrteleszkóp új felfedezései vajon választ adnak-e arra, hogyan születtek az univerzum első óriáscsillagai, és miként jöttek létre a legelső szupermasszív fekete lyukak...

MA 08:21

A vadonatúj Apple Studio kijelzők mindent visznek

📷 A kaliforniai techóriás két vadonatúj kijelzőt mutatott be: a Studio Display-t, valamint a kimondottan profiknak szánt Studio Display XDR-t...

MA 07:55

A farkasok sorra elhappolják a pumák zsákmányát Yellowstone-ban

Egy lényeges szempont, hogy a Yellowstone Nemzeti Parkban a farkasok és a pumák között állandó a feszültség, de ennek oka nem feltétlenül az, amire elsőre gondolnánk...

MA 07:47

A sötét tévékép bosszant? Így teszed végre világosabbá!

Zavar, hogy túl sötét a tévéd képe, és alig látod, mi történik kedvenc sorozatodban vagy filmedben?..

MA 07:37

A MacBook Neo véletlen leleplezése – és mi már imádjuk

😍 Micsoda galiba! Az Apple egy szimpla EU-s dokumentum feltöltésével előre lelőtte a poént, hogy végre jön a vadiúj (és olcsóbb!)..

MA 07:19

Az agy rejtett pajzsa az Alzheimer-kór ellen

A kutatóknak sikerült feltárniuk, miért képesek bizonyos agysejtek sokkal jobban ellenállni az Alzheimer-kór egyik fő károsító tényezőjének, a toxikus tau fehérjének, mint mások...