MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

szerda 20:49

A kígyók hőlátása költözik az okostelefonokba

Kínai kutatók olyan mesterséges képrögzítő rendszert fejlesztettek, amelyet a kígyók elképesztő hőlátása inspirált...

szerda 20:34

Az iMac Pro visszatér: most jön az igazi áttörés?

💻 Egy lényeges szempont, hogy újabb kiszivárgott információk szerint az Apple már dolgozik egy új iMac Pro modellen, amelybe valószínűleg az M5 Max lapka kerül...

szerda 20:18

Az ősi méhek döbbenetes titka: fészkek a rágcsálók fogaiban

Különleges felfedezésre bukkantak a tudósok Hispaniola szigetén, ahol egy barlangban több tucatnyi megkövesedett méhfészket találtak rágcsálócsontokban – ezeket egykoron baglyok halmozták fel, miután elfogyasztották zsákmányukat, több mint ötezer évvel ezelőtt...

szerda 20:01

Az ember, aki rendet tesz az MI-képkáoszban

📝 Az MI által generált képek elárasztják az internetet, és az emberek egyre kevésbé tudják eldönteni, mi valódi és mi nem...

szerda 19:51

A OnePlus 15R: óriási kijelző, bivaly akksi, csalódás a kamera

📷 Nehéz elhinni, de kevesebb mint hat héttel az előző OnePlus mobil bemutatója után máris itt az újabb készülék: a OnePlus 15R...

szerda 19:33

A mesterséges intelligencia felzabálja a Föld vizét és áramát 2025-ben

Évről évre nő az MI környezeti terhelése: 2025-re az új kutatások szerint az MI-rendszerek annyi szén-dioxidot bocsátanak ki, mint egész New York városa, és annyi vizet használnak el, mint amennyit az emberek palackozott vízből világszerte elfogyasztanak...

szerda 19:17

Az újabb Firefox-botrány: veszélyes bővítmények vadásznak az adatokra

Több mint egy tucat olyan Firefox-böngészőbővítményt találtak, amelyek titokban hátsó kapukat nyitnak, és figyelik a felhasználók böngészési szokásait...

szerda 19:01

A Coursera bekebelezi az Udemy-t: egyesülnek az e‑learning óriásai

A Coursera bejelentette, hogy részvénycserés ügylet keretében felvásárolja az Udemy-t, így a 900 millió dolláros (kb...

szerda 18:49

Az újabb IIS-baki káoszt hozott a Windows gépeken

⚠ A Microsoft ismét figyelmeztetést adott ki: a vállalati ügyfelek egy része komoly problémákkal szembesülhet a frissített Windows rendszereken, mivel az Internet Information Services (IIS) és a Message Queuing (MSMQ) összeomolhatnak...

szerda 18:34

A Google villámgyors MI-je: itt a Gemini 3 Flash

A Google globálisan elérhetővé tette a Gemini 3 Flash nevű MI-modellt, amely ígéretük szerint legalább olyan gyorsan használható, mint a hagyományos kereső...

szerda 18:17

A Gemini 3 Flash végre turbóra kapcsolja a mesterséges intelligenciát

⚡ Megérkezett a Gemini 3 Flash, a Google új, villámgyors MI-modellje, amely minden eddiginél gyorsabban válaszol, miközben megőrzi csúcskategóriás logikai képességeit...

szerda 18:02

A tőzsdecápák Solanára váltanak: ezért hasít a STKE

📈 A Solana (SOL) elképesztő növekedése mellé egyre többen sorakoznak fel, akik könnyedén, tőzsdén keresztül is részesedni szeretnének a sikerből...

szerda 17:50

Az év nagy dobása a Samsungtól: érdemes hajtogathatóra váltani?

📱 Felmerül a kérdés, hogy miért fordítja a Samsung egyre nagyobb figyelmét az összehajtható telefonokra, miközben a hagyományos készülékek terén eddig is piacvezető volt...

szerda 17:33

Az infláció bezuhant – jöhet a karácsonyi kamatvágás?

🎁 Az Egyesült Királyságban novemberre 3,2%-ra esett vissza az infláció, amely lényegesen alacsonyabb, mint az elemzők által várt 3,5%...

szerda 17:18

A pompeii áldozatok gyapjúköpenyeinek rejtélye: miért haltak így meg?

Új kutatások szerint Pompeii áldozatainak egy része vastag gyapjúköpenyt viselt, amikor a Vezúv kitört, annak ellenére, hogy az esemény augusztus végén, általában forró időben zajlott...

szerda 17:02

Az adatközpontok valódi ára: ki fizeti az áramot?

Érdemes megérteni, hogy az amerikai szenátorok egyre határozottabban követelik a techcégektől: tegyék világossá, hogyan akarják megakadályozni, hogy adatközpont-projektjeik miatt tovább emelkedjenek az áramárak, különösen ott, ahol a lakosság már most is drágán fizet az energiáért...

szerda 16:50

Az agyfejlődés titka: egyetlen génhiba mindent felborít

Régóta foglalkoztatja a kutatókat, miért alakul ki egyes gyerekeknél szokatlanul kicsi agy (mikrokefália)...

szerda 16:34

Közeleg az első Apple Silicon-alapú iMac Pro

💻 Hihetetlen, de mégis igaz: az Apple házon belüli szoftverfrissítései ismét felfedték, min dolgoznak éppen Cupertinóban...

szerda 16:17

A Tesla bajban: Kalifornia megbüntetné az Autopilot miatt

A kaliforniai Közlekedési Hatóság (DMV) komoly lépésre szánta el magát a Tesla ellen: ha a cég nem hagy fel a félrevezető marketinggel, amely túlhangsúlyozza autói önvezető képességeit, akár egy hónapra is felfüggeszthetik a járművek értékesítését az államban...