MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 18:24

Penrose szám: A bizonyíték Isten létére?

Sir Roger Penrose brit matematikus és elméleti fizikus, aki a fekete lyukak szingularitásának és az általános relativitáselmélet új matematikai alapjainak feltárásáért kapott Nobel-díjat, az 1970-es években sokkoló, a tudományos világot megosztó tézist közölt...

MA 20:49

Ahogy fogynak a fák, forró pokollá válnak a kaliforniai iskolák

🌲 Ez a jelenség jól illusztrálható azzal, hogy Kalifornia iskoláinak udvarain drasztikusan csökken a fák lombkoronája, ami veszélybe sodorhatja a gyerekeket az egyre gyakoribb hőhullámok idején...

MA 20:20

Az arccsere-műtét ára: amikor a remény rémálommá válik

A 2005 májusában a francia Isabelle Dinoire egy tragikus baleset áldozata lett: miközben alkoholt és altatót vett be egy családi veszekedés után, elaludt, és szeretett kutyája szétrágta az arcát...

MA 20:01

Tényleg csak a fejünkben létezik az Instagram-függőség?

🤔 Az Instagramot használók nagy része túlbecsüli, mennyire függ a platformtól – legalábbis ezt mutatja egy 1204 amerikai felnőtt bevonásával végzett kutatás...

MA 19:49

Az arcban kikelő féreg és az eltűnő dudor réme

Egy romániai nő homlokában kelt ki, és a bal szemhéjáig kúszott egy 11 centiméteres fonalféreg, amely egyébként főként kutyákban fordul elő...

MA 19:33

Az első marsi villámlás hangja: így füleltek a kutatók

🔉 A NASA Perseverance marsjárója váratlan felfedezést tett: sikerült rögzítenie a villámláshoz hasonló elektromos kisülések sercegő hangját a Mars felszínén...

MA 19:17

A félvezetőiparban titkos háború dúl az Intel és a TSMC között

A világ egyik legfejlettebb chipgyártója, a tajvani TSMC súlyos vádakat fogalmazott meg korábbi vezetője, Wei-Jen Lo ellen, aki szerintük titkokat szivárogtathatott ki az Intel számára...

MA 19:02

Az ICANN végre kilép az afrikai internetforradalom árnyékából

Az ICANN, az internetcímek és -nevek felügyeletével megbízott globális szervezet, kénytelen volt magyarázkodni amiatt, hogy finanszírozta az afrikai CAIGA nevű új internetirányítási kezdeményezést, amely radikálisan átalakítaná az afrikai online világ szabályozását, és nagyobb szerepet adna az államoknak...

MA 18:18

Az első MI-vezérelt kibertámadás: szintet léptek a kínai hackerek

Új korszak kezdődhet a kibervédelemben: egy kínai állami hátterű hackercsoport a Claude nevű MI-t vetette be, hogy szinte teljesen automatizálja egy átfogó kibertámadás lebonyolítását...

MA 18:02

Az olasz UFO-felhő már megint ráhozza a frászt a helyiekre

Egy lenyűgöző fotó készült az észak-olaszországi Possagno fölött, ahol ismét megjelent az a furcsa, UFO-szerű vörös fénygyűrű, amely már két és fél évvel ezelőtt is lázba hozta a lakókat...

MA 17:50

A fiúkat magukra hagyták: hol vannak a férfi mentorok?

Az amerikai fiúk és fiatal férfiak túlnyomó többsége ma elvileg hozzáfér felnőtt mentorokhoz, ám a mindennapi életben gyakran hiányoznak a férfi példaképek...

MA 17:33

Az Alibaba okosszemüvege is beszállt az MI-háborúba

👓 Az Alibaba piacra dobta legújabb MI-alapú okosszemüvegét, amellyel keményen bejelentkezik a fogyasztói MI-eszközök piacán...

MA 17:17

Az OpenAI is adatbiztonsági botrányba keveredett

🔒 Az OpenAI nemrég értesítette néhány ChatGPT API-felhasználóját, hogy egy harmadik fél, a Mixpanel elemző platformján keresztül illetéktelenek korlátozott azonosító adatokat szereztek meg...

MA 17:01

Az IPTV-razzia után tévé nélkül maradt a környék

A görög kiberbűnözés elleni egység látványos akciót hajtott végre Santorinin, miután új jogi keretrendszer lépett életbe az online szerzői jogsértések visszaszorítására...

MA 16:50

A műanyagszennyezés és a klímaválság: kettős támadás bolygónk ellen

🌍 Tipikus példa arra, amikor két ökológiai válság kéz a kézben sújtja bolygónkat: a műanyagszennyezés és a klímaváltozás hatásai együtt olyan problémákat okoznak, amelyek hatása messze túlmutat a szemmel látható szemetelésen...

MA 16:33

A Vénusz-templom örök szilárdságának titka: páratlan anyagok

🏛 A nápolyi Vénusz-templom közel kétezer éve fennáll, miközben a földfelszín alatta folyamatosan süllyedt a vulkáni tevékenység miatt...

MA 16:17

Az egyik legnépszerűbb JavaScript-titkosító könyvtár kritikus sebezhetést foltoz

Egy komoly biztonsági hibát fedeztek fel a node-forge nevű JavaScript-titkosítási könyvtárban, amely világszerte rendkívül népszerű a fejlesztők körében...

MA 15:34

Az RNS, amely önmagát rendezi: lefilmezték a ribozim önszerveződését

Az RNS (ribonukleinsav) alapvető szerepet tölt be az élővilágban, mára pedig a gyógyászatban és a nanotechnológiában is nélkülözhetetlenné vált...

MA 15:17

A titokháború az Intel sztárigazolása körül robbant ki

A TSMC beperelte korábbi csúcsmérnökét, Wei-Jen Lo-t, miután a szakember az Intelhez igazolt...