2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 09:37

A GM 250 ezer villanyautója visszatáplál – jönnek a hálózati nátriumion-akkuk

Egy lényeges szempont, hogy az elektromos autózás fejlődése nem csupán a közlekedést, hanem a teljes energiahálózatot átalakíthatja...

MA 09:19

A kínai hackerek tíz évig kémkedtek egy elszigetelt hálózatban

🔎 Egy nagy szervezet elkülönített kritikus infrastruktúrahálózatába jutott be a Velvet Ant nevű kínai kibercsoport, és tíz éven keresztül zavartalanul kémkedett...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 6/14

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     CrestWall – 4K Wallpapers (iPhone/iPad)A CrestWall egy kézzel válogatott 4K felbontású háttérképeket kínáló alkalmazás, amely azoknak szól, akik szeretnék egyedivé tenni iPhone-juk kinézetét...

MA 09:10

A volfrámhiány feléleszti az amerikai bányászlázat

🪘 Az elmúlt hónapok feszültségei és a hadiipar egyre növekvő igényei a volfrám iránt új lendületet adtak az Egyesült Államok bányászati ambícióinak...

MA 09:01

A gombák láthatatlan hálója a Naprendszeren is túlér

🥀 Érdekes felvetés, hogy a világ felszíne alatt láthatatlanul behálózzák bolygónkat a gombafonalak: a kutatók szerint, ha az összes arbuszkuláris mikorrhiza gomba fonalait egyetlen vonalba fűznénk, azok messze túlnyúlnának a Naprendszer határán is...

MA 08:55

Az indexek kora: Tényleg a SpaceX diktálja a megtakarításaid jövőjét?

💸 Érdekes felvetés, hogy a világ legnagyobb technológiai cégeinek értékével vetekedő óriáscégek, mint a SpaceX, hirtelen bekerülhetnek mindenki portfóliójába, pusztán az indexek ereje miatt...

MA 08:45

A Lucyra vadászó óriáskrokodil rettegésben tartotta elődeinket

Több mint 3 millió évvel ezelőtt Kelet-Afrika a későbbi emberi ősök – köztük a híres Lucy – számára nem csupán a túlélésről szólt...

MA 08:37

Az Apple Watch kihívói: 7 napos üzemidő egyetlen töltéssel

📱 Aki elgondolkodott már az Apple Watch lecserélésén, annak valószínűleg elsőként a rövid üzemidő juthat eszébe hátrányként...

MA 08:19

Az amerikai kormány kitiltaná a külföldieket a Fable és Mythosból

🚫 Az Anthropic hirtelen felfüggesztette két legerősebb MI-modellje, a Fable 5 és a Mythos 5 használatát világszerte, miután az amerikai kormány exportkorlátozási rendelettel azonnali tiltást rendelt el minden külföldi állampolgár számára...

MA 08:01

Az űripar és az MI felforgatta a tőzsdét: soha nem látott csúcsok

Például a Wall Streeten pénteken végre fellélegeztek, amikor a SpaceX legendás tőzsdei bevezetése minden várakozást felülmúlt...

MA 07:55

A naptej-forradalom: végre megérkezett a korszerű fényvédelem

Felmerül a kérdés, hogy miért kellett több mint 25 évet várni egy új naptejösszetevő megjelenésére az Egyesült Államokban, miközben Európa és a világ többi része már régen használ fejlettebb kémiai védelmet...

MA 07:46

A 4 biztonsági beállítás, amit minden új Androidon azonnal bekapcsolok

🔒 Egy lényeges szempont, hogy amikor új Android-telefon kerül valakihez, spontán nekiáll az alkalmazások letöltésének, fiókokba való belépésnek, a felesleges gyári appok kitakarításának és a külalak testreszabásának...

MA 07:18

A gyorstöltési háborúknak vége: ideje rendet tenni USB‑C-ben

A telefonok töltési sebességét tekintve elértük a csúcsot, de még messze vagyunk attól, hogy minden eszközünket egyszerűen, gond nélkül tudjuk tölteni...

MA 07:01

A világbajnokság mozgó matekja: hány kamera kell valójában?

🎥 A nyári világbajnokság közeledtével sokan találgatják, mikor robban ki vita egy-egy vitatott bírói döntés miatt...

MA 06:54

Az óriásbolygók különös forgása új nyomot ad a világok születéséhez

Az óriásbolygók és a barna törpék forgásának vizsgálata újabb titkokat tárt fel az idegen világok keletkezéséről...

MA 06:46

A háztartás tartalék-erőműve: Anker SOLIX S2000 teszt

Az elektromos áram háztartásunk egyik legalapvetőbb szükséglete lett – főleg, amikor váratlanul elmegy...

MA 06:37

Az X-Men ’97 második évada minden képzeletet felülmúl

🤩 Lényeges, hogy a kilencvenes évek rajongói imádni fogják az X-Men ’97 folytatását...

MA 06:27

A Wikipédia-adatokból kiderül, miről beszél most a világ

A Wikipédia az utolsó olyan nagy internetes oldal, amelyet önkéntesek tartanak fenn, reklámok nélkül, távol a céges érdekektől...

MA 06:19

Az Apple három rejtett jelből fedi fel MI-jövőjét

Az Apple idei fejlesztői konferenciáján bemutatta legújabb operációs rendszereit, köztük az iOS 18-at, a macOS 27-et és az iPadOS 27-et...

MA 06:05

Történelmi események a mai napon (Június 14.)

Mi történt ezen a napon a történelemben? Ma háborúk fordulópontjai, birodalmak sorsa és technológiai mérföldkövek rajzolták át a világot: Párizs német megszállása, az első nonstop transzatlanti repülés és a Stars and Stripes hivatalos elfogadása mind ezen a napon történt...

szombat 21:44

A Wall Street túllép a kriptokísérleteken, és az Ethereumra szavaz

💰 Tipikus esete annak, amikor a technológiai forradalom halkan, de mélyrehatóan formálja át a pénzügyi világot...

szombat 21:34

A Mag8 vállalatok negyede már bitcoint tart – Musknak köszönhetően

Michael Saylor, a MicroStrategy társalapítója új elnevezést adott a Wall Street legmeghatározóbb cégeinek, miután a SpaceX rekordméretű, 1,75 billió dolláros (kb...

szombat 21:12

A NASA X-59-e áttörte a hangkorlátot – közeleg a csendes szuperszonikus korszak?

🚀 A NASA és a Lockheed Martin közösen fejlesztett X-59-es repülőgépe először lépte át a hangsebesség határát, elérve a Mach 1,1-es sebességet...

szombat 21:01

A kullancs csípése húsallergiát okozhat – új veszély leselkedik?

Ebből következően érdemes megérteni, hogy a kullancsok nemcsak olyan ismert betegségekkel fertőzhetnek meg, mint a Lyme-kór, hanem okozhatnak egy ritka, de egyre gyakoribb és komoly problémát is: a húsallergiát...

szombat 20:56

A chatbotod memóriájának átvitele Geminibe és vissza – így csináld

A chatbotok világában gyakran felmerül az igény, hogy egy másik MI‑platformot próbáljunk ki, azonban sokakat visszatart, hogy elveszthetik eddigi beszélgetéseiket és beállításaikat...

szombat 20:45

A rák mesterkapcsolója: áttörés a hasnyálmirigyrák kezelésében

🚀 A tudomány világát ritkán járja át igazi lelkesedés, most azonban kivételes dolog történt...

szombat 20:34

Az AirPods lesz az iPhone-kamerád titkos távirányítója

Az iOS 26 érkezésével az AirPods új trükköket tanult: a vezeték nélküli kameravezérlés már nemcsak az Apple Watch kiváltsága...

szombat 20:01

A hamis bejelentések miatt leállították Maine adatszivárgás-bejelentő portálját

Jó példa erre, hogy Maine állam kénytelen volt leállítani a nyilvános adatszivárgás-bejelentő portálját, miután ismeretlenek hamis biztonsági incidensekről szóló közleményeket töltöttek fel a hivatalos rendszerbe...

szombat 19:56

A SpaceX tőzsdei rajtja tökéletesre sikerült – így látják a befektetők

A SpaceX pénteki tőzsdei debütálása minden várakozást felülmúlt: a részvény már reggel 150 dolláron (kb...