MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 12:19

Az otthoni robot, amely majdnem annyiba kerül, mint egy autó

Ez a robot 168 cm magas, tömege pedig nagyjából egy golden retrieveréhez hasonlítható, ára pedig majdnem egy új, olcsó autóéval vetekszik...

szombat 14:24

Tévedhetetlen szakértők? Az előrejelzések meglepő valósága

I. Egy szakértő a szakértőkről Pontosítsunk, mivel mi nem vagyunk szakértők, hogy a jövőt megjósoljuk: eddig általában ebből nem sok jó sült ki...

MA 13:09

Az aranyvécé: a kapitalizmus trónja eladó

🚿 Maurizio Cattelan híres arany vécéje, az Amerika (America), hamarosan árverésre kerül a Sotheby’s-nél...

MA 13:01

Újabb QNAP-botrány: hét sebezhetőséget javítottak a NAS-okban

🛠 A QNAP hálózati adattárolóit (NAS) hét, eddig nem ismert sérülékenységen keresztül is sikeresen feltörték a Pwn2Own hackerversenyen...

MA 12:53

Káosz az amerikai repülőjáratokon, mire elég a bankkártyás utasbiztosítás?

🛫 A repülőutakra vágyók most nehéz időszakot élnek át az Egyesült Államokban: az FAA (Szövetségi Légügyi Hivatal) járatcsökkentő intézkedése miatt pénteken 748 menetrend szerinti járatot töröltek, ami a pénteki indulások 3%-át jelenti...

MA 12:42

Watson, a DNS-forradalom zsenije vagy botrányhőse, meglepő igazságok a genetikáról

James Watson neve örökre beíródott a tudomány történetébe: a DNS szerkezetének felfedezésével forradalmasította a biológiát...

MA 12:31

Az óceán fáinak évgyűrűi: amit a korallokról megtudtunk

A tengerbiológusok új módszerének köszönhetően pontosabb képet kaptunk a korallzátonyok múltjáról és állapotáról...

MA 12:21

Az amerikai járatcsökkentés oka, biztonságot ígérnek, több járat marad ki

✈ Az Egyesült Államokban 40 repülőtéren 10 százalékkal csökkentik a járatok számát a kormányzati leállás miatt...

MA 12:12

Az év legjobb techajánlatai, közeleg a Black Friday 2025

A Black Friday nem hivatalosan a techvásárlás karácsonya lett, amikor fejhallgatókért, játékkonzolokért, okosotthoni eszközökért vagy akár egy új laptopért tényleg rekordáron juthatsz hozzá...

MA 11:51

Új kémprogram támad Samsung-telefonokat WhatsAppon keresztül

🕵 Egy eddig ismeretlen kémprogram, a LandFall súlyos biztonsági rést használt ki a Samsung androidos képfeldolgozó könyvtárában, és rosszindulatú képeket küldött célpontjainak WhatsApp-üzenetben...

MA 11:42

Amerikában az élelmiszerbankok katasztrófaüzemben működnek

A jelenlegi politikai bizonytalanság miatt országszerte extrém terhelés nehezedik az amerikai élelmiszerbankokra...

MA 11:30

Meghalt James D. Watson, a DNS szerkezetének társfelfedezője

James D. Watson, a DNS szerkezetének egyik felfedezője, 97 éves korában hunyt el egy hospice-ban a New York állambeli East Northportban...

MA 11:21

Az Oracle-hackerek már a Washington Postot is feltörték

A Washington Post is azok közé a cégek közé került, amelyeket a közelmúltban ért adatszivárgási hullám az Oracle vállalati szoftverei révén...

MA 11:11

Az orkapicik születése: vér, feszültség, boldogság Norvégiában

Szenzációs pillanatoknak lehettek tanúi a kutatók Norvégiában, amikor sikerült megörökíteniük egy vadon élő orkaborjú születését...

MA 11:01

Az Apple sosem győzte le a Fitbitet: ez a fitneszkarkötő negyedannyiba kerül

💪 Közelednek az ünnepek, a vásárlási láz pedig egyre fokozódik. Ha még nem szereztél be minden ajándékot, érdemes lehet kipróbálni a Fitbit Inspire 3 egészség- és fitneszkarórát, amely most Black Friday előtti áron, 30%-os kedvezménnyel kapható – a megszokott 36 000 Ft helyett mindössze 25 000 Ft-ért...

MA 10:57

Az árpatermesztés titkos ellensége: a túl korai csírázás

A világon minden évben több ezer milliárd forintnyi termény megy veszendőbe az aratás előtti csírázás (pre-harvest sprouting, PHS) miatt...

MA 10:43

Az amerikaiakat megtréfálja a korai sarkvidéki hideg

Az Egyesült Államokban szokatlanul korán érkezik egy sarkvidéki hideghullám, amely a következő napokban átsöpör a kontinens középső és keleti részén...

MA 10:36

A félrevezető MI-teszteken a nagy cégek csak nevetnek

😂 Az MI-cégek előszeretettel hivatkoznak benchmarkjaikra, hogy modelleiket a technológiai fejlődés csúcsaként tüntessék fel...

MA 10:29

Az óriáspókháló, amely fél teniszpályát borít be

Egy magyar, cseh és albán kutatókból álló csapat hihetetlen felfedezést tett a Görögország és Albánia határán található kénes barlangban: egy olyan óriási pókhálóra bukkantak, amely több mint 97 négyzetmétert, vagyis nagyjából egy fél teniszpályányi területet borít be...