MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 12:33

Az első Pokémon LEGO-készletek megérkeztek: indul az előrendelés

A LEGO és a Pokémon összefogott, és megérkeztek az első közös készletek, amelyek mostantól előrendelhetők...

MA 12:18

Az elhibázott frissítés miatt visszahívják az ír útleveleket – jön az utazási káosz?

🛈 Mintegy 13 ezer ír útlevelet hív vissza a Külügyminisztérium egy hibás szoftverfrissítés miatt, amely használhatatlanná tette az okmányokat...

MA 12:01

Az iPhone új őrülete: egy gomb, és kitör a pánik

🚨 Egyre nagyobb népszerűségnek örvend egy különös iOS-alkalmazás, az Élsz még? (Are You Dead?)..

MA 11:49

Az MI és a gazdasági lassulás falnak vezeti az európai cégeket

Az európai munkaerőpiac lendülete megtört, ahogy a gazdasági növekedés lassul, és egyre több vállalat fordul az MI-megoldások felé...

MA 11:18

Megszületik a fapados óriás: az olcsó repülés titkos fegyvere

A Sun Country részvényei szárnyaltak, miután a légitársaság bejelentette, hogy összeolvad a Las Vegas-i székhelyű Allegianttal...

MA 11:02

Az új Gogs-sebezhetőség sarokba szorítja a kormányzati szerveket

Egy komoly sebezhetőséget találtak a Gogs rendszerében, amelyet már több célzott támadásban is kihasználtak...

MA 10:57

Az új kínai app első kérdése: Meghaltál már?

A Sileme nevű kínai alkalmazás, magyarul Meghaltál már? (Are You Dead?)..

MA 10:51

A Tumba Madžari Nagyanya: az ősi házőrző istennő titkai

1981-ben Észak-Macedóniában, Skopje közelében találták meg a Tumba Madžari nevű régészeti lelőhelyen azt a különleges agyagszobrot, amelyet csak Nagyanyaként emlegetnek...

MA 10:44

Így tüntesd el az idegesítő Ask gombot a Google Fotókból

2024-ben a Google bevezette az Ask gombot a Google Photos alkalmazásban, ami lehetővé teszi, hogy természetes nyelvű kérdéseket írjunk be keresés helyett...

MA 10:36

Az XRP dacol a piaccal: nagy kitörés jön, vagy zsákutca?

💸 Az XRP 1%-os emelkedéssel 2,06 dollárig (kb. 735 HUF) lépett előre, miközben a kereskedők továbbra is a rövid távú szintekre figyelnek...

MA 10:30

Az év üstököse közeleg: szabad szemmel is látható az égi vándor

🚀 A nemrég felfedezett C/2025 R3 (PanSTARRS) üstökös igazi sztárjelölt lehet: április végén közelíti meg a Napot és a Földet, és minden esélye megvan, hogy szabad szemmel is látható legyen...

MA 10:22

A rotterdami és az antwerpeni kikötők feltöréséért hét év börtön

🛡 A 44 éves holland férfit hét év börtönre ítélték, miután több bűncselekményben, köztük számítógépes betörésben, kábítószer-csempészésben és zsarolási kísérletben is bűnösnek találták...

MA 10:16

A GTA 6 tényleg csak PS5-ön tarol majd?

🎮 Novemberben végre megjelenik a Grand Theft Auto 6 PlayStation 5-re és Xbox Series X-re, de a PC-s verzióra még várnunk kell...

MA 10:09

A levegőben úszik a műanyag: döbbenetes, mennyit belélegzünk

Döbbenetesen sok mikroszkopikus műanyag úszik a városi levegőben – jóval több, mint eddig gondoltuk...

MA 09:57

Az újabb zsarolóvírus-csapda: a Hawaii Egyetem is bedőlt

🔒 A Hawaii Egyetem Rákkutató Központját augusztus végén zsarolóvírus-támadás érte, amelynek során a kutatásban részt vevők adatait, köztük az 1990-es évekből származó, társadalombiztosítási számokat tartalmazó dokumentumokat loptak el...

MA 09:50

A saját Michelson-interferométer otthon, fillérekből

Egy Michelson-interferométer eddig főként fizikalaboratóriumok kiváltsága volt, de most bárki elkészítheti otthon is, fillérekből...

MA 09:44

Az MI korában tényleg felesleges nyugdíjra spórolni?

🤔 Elon Musk szerint teljesen felesleges a nyugdíjcélú megtakarítás, mert az MI és a robotika olyan bőséget teremtenek a közeljövőben, amelyben az anyagi gondok végleg eltűnnek...

MA 09:36

Az új RAM-válság miatt brutálisan drágulnak a Framework laptopok

A számítógépgyártó Framework jelentősen megemelte asztali rendszereinek és mainframe egységeinek memóriabővítési árait...

MA 09:31

Az olcsó zajszűrős fejhallgató, ami csúnyán leszerepel

Rengeteg olcsó vezeték nélküli fejhallgató közül választhatunk, ám a Tribit QuietPlus 81 kiemelkedik feltűnően alacsony árával és elképesztő, 110 órás akkumulátor-üzemidejével...