MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

Top
hétfő 16:50

Egyetemet végzett milliárdosok – ki mit végzett?

A közvéleményben gyakran keringenek olyan történetek, amelyek a felsőoktatásból kimaradó vállalkozókról szólnak...

MA 17:04

Az Nvidia 1800 milliárd dolláros óriástétje az MI-ben: kérdések Jensen Huanghoz

💰 Az Nvidia negyedéves gyorsjelentése a figyelem középpontjában áll, hiszen nemcsak a legnagyobb MI-láz közepén vagyunk, hanem most dől el az is, valóban bírják-e majd pénzzel az iparági szereplők az önmagukat gerjesztő MI-beruházások számláit...

MA 16:34

Az elektromos Jeep Recon befutott: indulhat a terepforradalom

🚙 A Jeep végre bemutatta az első teljesen elektromos SUV-ját, a Jeep Recont, amely hivatalosan is 2026-tól lesz kapható...

MA 16:17

Az internet kis híján megállt – mi állt a Cloudflare-kiesés mögött?

Kedden a Cloudflare hat éve nem látott mértékű leállást szenvedett el, ami közel hat órán keresztül tette elérhetetlenné a világ számos weboldalát és online platformját...

MA 16:03

A Windows búcsút int a kékhalálnak a digitális kijelző móddal

Külön említést érdemel, hogy a Microsoft egy új Windows-üzemmódot vezet be, amely automatikusan eltünteti a hírhedt kékhalált (BSOD) a nyilvános kijelzőkről 15 másodperc után...

MA 15:50

A fél internet térdre rogyott a Cloudflare leállása miatt

Kedd délelőtt egy rejtélyes globális hiba miatt az internet egyik legnagyobb, szinte láthatatlan közműve, a Cloudflare szolgáltatása leállt...

MA 15:17

A Meta kiterjesztené a Community Notes-t – kié lesz a szó?

💬 A Meta hamarosan új országokban is elindítaná a Community Notes rendszert, amely az X-en (korábban Twitter) már ismert közösségi tényellenőrzés mintájára működik...

MA 15:01

A mexikói kormány részben visszavonja a Tor-tilalmat

Hosszú évek után Mexikó ismét hozzáférést engedélyezett a hivatalos kormányzati portálhoz (gob...

MA 14:49

Az R2-D2-t idéző madarak meghökkentő titka

🦉 Képzeld el, ahogy madarak nemcsak csicseregnek, hanem a Csillagok háborúja (Star Wars) híres droidjának, R2-D2-nek a hangjait is utánozzák – ráadásul meglepően hűen...

MA 14:33

Az OpenAI-botrány: Larry Summers távozik az Epstein-levelezés nyomán

💬 Larry Summers, korábbi amerikai pénzügyminiszter és a Harvard Egyetem korábbi rektora szerdán bejelentette, hogy lemond az OpenAI igazgatótanácsából, miután nyilvánosságra hozták e-mailes levelezését a hírhedt bűnöző Jeffrey Epsteinnel...

MA 14:18

Az új Kirby Air Riders csak társaságban üt igazán?

🏁 A Kirby Air Riders című játék a Nintendo egyik legnagyobb legendáját, a rózsaszín gömböcöt állítja a középpontba, miközben a játékmenet ezúttal is járműves versenyzésre épül...

MA 13:49

Az okostelefonok ára jövőre megugorhat – figyelmeztet a Xiaomi

Az okostelefonok ára már most is borsos, de 2025-ben még nagyobb áremelkedésre készülhetsz...

MA 13:34

A titkos SpaceX-műholdak tiltott jelekkel keltik a zavart az űrben

🚨 Egy amatőr csillagász véletlenül fedezett fel furcsa rádiójeleket, amelyek a SpaceX kormányzati használatú Starshield-műholdhálózatából származnak...

MA 13:18

Az égi vándor: a 3I/ATLAS üstökös túljár a galaxis eszén

Egy új, lenyűgöző asztrofotó örökítette meg, ahogy a 3I/ATLAS üstökös átsuhan egy távoli galaxis, az NGC 4691 előtt az éjszakai égbolton...

MA 12:50

A fekete lyukak elképzelhetetlen ütközése, ami mindent átír

A közelmúltban a csillagászoknak sikerült visszafejteniük, hogyan jöhetett létre minden idők legnagyobb megfigyelt fekete lyuk-összeolvadása: két, elméletileg „lehetetlen” óriás ütközött össze, pedig a jelenlegi elképzelések szerint ilyen tömegű fekete lyukaknak nem is volna szabad létezniük...

MA 12:34

Az USA két hónapon belül elvesztheti kanyarómentes státuszát

Áttörő összefüggések két nagyszabású járvány között Az amerikai egészségügyi hatóságok két nagy kanyarójárvány összekapcsolódását tárták fel: a jelenleg is zajló, országszerte terjedő járvány ugyanahhoz a vírusaltípushoz (9171) köthető, amely januárban Nyugat-Texasban indult...

MA 11:34

Az MI-óriások egymást fújják fel: 16,3 billió forintos körhinta

🎲 Mi történik, ha a Microsoft, az Nvidia és az Anthropic összefognak?..

MA 11:17

Az új Jeep Recon megérkezett: 650 lóerős elektromos szörnyeteg

Hosszú várakozás után végre gyártásba kerül a tisztán elektromos Jeep Recon, amelynek összeszerelését a márka mexikói üzeme hivatalosan a jövő év elején kezdi meg...

MA 11:01

Az új FortiWeb-sebezhetőség kaput nyit a támadóknak

🔒 A Fortinet figyelmeztet, hogy a FortiWeb tűzfalában súlyos, eddig ismeretlen sebezhetőséget találtak, amelyet támadók már aktívan ki is használnak...