MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 14:35

A nagy vizsga előtt áll a fentanil elleni vakcina

Egy piszok erős, szinte láthatatlan gyilkos, amely már néhány homokszemnyi mennyiségben is halálos: a fentanil nevű szintetikus opioid kiemelkedő veszélyt jelent, mert színtelen, szagtalan és könnyű más szerek közé keverni, anélkül, hogy a fogyasztó tudna róla...

MA 14:18

Az élő, nyers békaevés ára: ritka tüdőfertőzés Sanghajban

🐸 Egy 32 éves sanghaji nő hónapokon át tartó köhögés, időnként véres köpet, valamint a korábban heteken át fennálló láz miatt fordult orvoshoz...

MA 14:01

Az influenzavírus tényleg besétál a sejtjeinkbe – és lefilmeztük!

📺 Télen ismét előkerül a jól ismert hármas: láz, sajgó végtagok és orrfolyás...

MA 13:49

Az Antigravity 360 fokos drónja berobban az amerikai piacra

🚀 Az Antigravity végre megérkezett az Egyesült Államokba, és elsőként egy igazán különleges drónnal, az Antigravity A1-gyel mutatkozik be...

MA 13:36

Az online frontvonal: belépünk a DDoS-támadások új korszakába

🛡 2025 harmadik negyedévét a minden eddiginél erősebb Aisuru botnet támadásai uralták, amelyek egyszerre döntöttek rekordokat és forgatták fel az online világ védelmét...

MA 13:18

Az MRI forradalma: fullerénekkel új korszak kezdődhet

A mágneses rezonancia képalkotás (MRI) világszerte nélkülözhetetlen eszköz az orvostudományban. Mégis a technológia érzékenysége tovább növelhető, különösen a dinamikus nukleáris polarizáció (DNP) nevű módszerrel...

MA 13:04

Az Ethereum zuhanni kezdett: miért olvad a hálózat értéke?

Az elmúlt öt hónap során az Ethereum árfolyama 45 százalékkal esett vissza, 1,4 milliárd dollár (kb...

MA 12:17

Az agy csak harminc után érik be igazán

Úgy tűnik, az agyunk jóval tovább kamasz marad, mint ahogy gondolnánk...

MA 12:03

Az év végi szenzáció: a Spotify Wrapped zsenialitása

Idén is megérkezett a Spotify Wrapped, a zenestreaming-szolgáltató éves kampánya, amely évről évre minden várakozást felülmúl...

MA 11:50

A gáztűzhelyek láthatatlan mérge otthon is támad

Ez a jelenség jól illusztrálható azzal, hogy miközben a kültéri légszennyezés ellen sokan igyekeznek védekezni, a lakásokban is komoly egészségügyi kockázatot jelenthetnek a mindennapi eszközök...

MA 11:33

A tudatosan beépített hibák szupererővel ruházzák fel a grafént

A kutatók áttörő módszert találtak a grafén előállítására: szándékosan olyan szerkezeti hibákat visznek be, amelyek jelentősen javítják annak tulajdonságait...

MA 11:17

Az új BMW iX3: az elektromos SUV, ami mindent visz

🚗 A BMW új elektromos crossover SUV-ja hamarosan felrázza a piacot. Az elmúlt két évben a gyártó folyamatosan adagolta a részleteket a Neue Klasse (Új Osztály) névre keresztelt új generációs elektromos platformjáról: mérnökei órákon át magyarázták a vadonatúj, továbbfejlesztett aktív biztonsági rendszert, prototípusokat lepleztek le, és egyre nőtt a várakozás...

MA 11:02

A Micron az MI-aranyláz közepette búcsút int a Crucialnak

A Micron drasztikus lépésre szánta el magát: felszámolja a jól ismert Crucial fogyasztói memóriamárkát, hogy teljes erejével az egyre növekvő MI- és vállalati piacokra koncentrálhasson...

MA 10:58

Az orosz űrhajóst kitoloncolták – ellopta a SpaceX titkait?

Egy orosz űrhajóst kitoloncoltak az Egyesült Államokból, miután jogellenesen titkos SpaceX-terveket szerzett meg...

MA 10:52

Az irodai rugalmasság kevés: a dolgozók akarata dönt

💼 A rugalmas munkavégzés látszólag megoldja, valójában azonban csak tovább bonyolítja a munkaerő megtartásának kérdését...

MA 10:43

Az AT&T és a Verizon besokallt a T‑Mobile trükkjeiből

Az AT&T és a Verizon keményen fellépnek a T-Mobile új „Easy Switch” eszközével szemben, amely egyszerűsített szolgáltatóváltást kínál az ügyfeleknek...

MA 10:37

A műholdak elárasztják az űrteleszkópokat: közeleg a teljes káosz?

Érdekes felvetés, hogy az emberiség egyre nehezebben látja át az univerzumot a Föld körül rohamosan szaporodó műholdak miatt...

MA 10:29

A bíróság rákényszeríti az OpenAI-t a ChatGPT-naplók feltárására a szerzői jogi perben

Egy amerikai szövetségi bíró elrendelte, hogy az OpenAI-nek át kell adnia 20 millió ChatGPT-naplót a New York Times és több más újság által indított szerzői jogi perben...

MA 10:23

Az amerikai csúcsdugók királya: Chicago letaszította New Yorkot

🚗 Miközben az Egyesült Államokban országszerte tombolt a forgalmi dugók átka, New Yorkban idén nem romlott a helyzet – ellentétben szinte minden más nagyvárossal...