MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

Top
hétfő 16:50

Egyetemet végzett milliárdosok – ki mit végzett?

A közvéleményben gyakran keringenek olyan történetek, amelyek a felsőoktatásból kimaradó vállalkozókról szólnak...

MA 10:29

Az újabb támadáshullám csap le a Palo Alto VPN-ekre

⚠ Az elmúlt napokban szokatlanul intenzív támadási hullám indult a Palo Alto Networks GlobalProtect VPN-belépési portáljai ellen, a szkennelések száma egyetlen nap alatt negyvenszeresére nőtt...

MA 10:15

Az év adatlopása sújtotta az olasz vasútóriást

🚂 Olaszország nemzeti vasúttársaságának, az FS Italiane Groupnak érzékeny adatai szivárogtak ki, miután egy hacker feltörte informatikai szolgáltatójuk, az Almaviva rendszerét...

MA 10:09

Az európai talaj mélyén lappangó láthatatlan méreg

A dániai Korsør egykor békés tengerparti település volt, ahol a tehenek nyugodtan legeltek, lakói pedig mit sem sejtettek arról, hogy életüket hamarosan örökre megváltoztatja egy láthatatlan veszély...

MA 10:02

A japán export berobbant – Európa és Ázsia hajtja a növekedést

A japán export októberben a vártnál jóval nagyobb mértékben nőtt, különösen az ázsiai és európai megrendelések erősödésének köszönhetően...

MA 09:36

A Meta új virtuális bulijai: elegünk van a videóhívásokból?

A Meta új lehetőséget adott a virtuális találkozókra: mostantól a Hyperscape Capture tereiben akár nyolc barát is összegyűlhet egy online bulihoz...

MA 09:16

A moha túléli az űrt is – mi következik ezután?

Kilenc hónapot töltöttek mohaminták az űr kíméletlen körülményei között, azután visszahozták őket a Földre – és a spórák több mint 80 százaléka tovább szaporodott...

MA 09:02

Az eltűnt bolygó rejtélye: hogyan született a Hold

🌓 A Hold keletkezésének legnépszerűbb magyarázata szerint egy ősi, Theia nevű bolygó nagyjából 4,5 milliárd évvel ezelőtt ütközött a Földdel...

MA 08:59

A mesterséges intelligencia nyomra bukkan: ilyen ősi a fotoszintézis

🌱 Ez a jelenség jól szemlélteti, hogy a Föld legrégibb életének története éppen csak sejthető, hiszen a több milliárd éves kőzetek teljesen átalakultak az évmilliárdok alatt...

MA 08:50

Az Amazon Alexa+ végre Kanadában is elérhető

🇨🇦 Mostantól Kanadában is elérhető az Amazon új generációs digitális asszisztense, az Alexa+...

MA 08:43

Az újabb Salesforce-botrány: veszélyben az ügyféladatok

💸 A Salesforce vizsgálatot indított, miután kiderült, hogy egyes ügyfeleik adatai illetéktelen kezekbe kerültek a Gainsight alkalmazásain keresztül...

MA 08:37

A Google leleplezné az MI-képeket – komoly korlátokkal

👁 Az MI-vel generált képek felismerése egyre nagyobb kihívás az interneten, ezért a Google új eszközt vet be: a Gemini alkalmazásban és a weben már elérhető a SynthID Detector funkció, amellyel bárki feltölthet egy képet, és megkérdezheti a bottól, hogy vajon MI készítette vagy módosította-e azt...

MA 08:30

Az Nvidia-válság megrázta az ázsiai chipóriásokat

💸 Az amerikai Nvidia részvényeinek zuhanása komoly földrengést okozott az ázsiai chipgyártók piacán is...

MA 08:23

Az indiai MI-harc: a Google a csalók nyomában, még messze a vége

Indiában robbanásszerűen nő a digitális csalások száma, ahogy egyre többen csatlakoznak az internethez, és használják a mobiltelefonjukat fizetésre, vásárlásra vagy állami szolgáltatások igénybevételére...

MA 08:16

Az új szívtapasz megmentheti a szívet szívinfarktus után

Vékony, biológiailag lebomló tapasz segítheti a szív gyógyulását szívinfarktust követően. A texasi kutatók olyan mikrotűs terápiát fejlesztettek, amellyel az IL-4 nevű immunmoduláló molekulát közvetlenül a károsodott szívizomhoz juttathatják el, ráadásul minimális mellékhatásokkal...

MA 08:02

A szakértők figyelmeztetnek: ünnepek előtt különösen veszélyesek az MI-játékok a gyerekekre

A mesterséges intelligenciát alkalmazó játékok látványosak, cukik és szórakoztató tanulást ígérnek, mégis egyre több gyermekvédő és fogyasztóvédelmi szervezet figyelmeztet: ezek az eszközök komoly kockázatot jelentenek a gyerekek számára, már kétéves kortól...

MA 07:58

Az MI-chatbotok már a személyes adataidra vadásznak

Ahogy egyre több felhasználó oszt meg személyes információkat csevegőrobotokkal, egyre nagyobb a kockázata annak, hogy ezeket az adatokat az MI-rendszerek fejlesztésében is felhasználják...

MA 07:52

Végre: az Android is megkapta az iPhone eddigi előnyét

👍 Ki gondolta volna, hogy az EU szabályozása miatt Androidról is lehet AirDrop-pal fájlt küldeni?..

MA 07:43

Az orosz bűnbandát is lekapcsolták a netről

Globális összefogással sikerült lebuktatni egy újabb golyóálló tárhelyszolgáltatót, amely évek óta oroszországi központtal támogatta az online bűnözés legdurvább formáit...