2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 20:56

Az MI-alapú gyászbotok átírják a gyászolás szabályait

A fiatal tartalomgyártó, Roro anyját rák vitte el. Kettőjük viszonya bonyolult volt: az odafigyelést gyakran követte kritika, a múlt tele maradt elvarratlan szálakkal...

MA 20:37

Az MI felpörög: a GPT-5.3 Codex Spark sebességrekordot dönt

⚡ Az OpenAI bemutatta a GPT-5.3-Codex-Spark nevű új modelljét, amelyet kifejezetten kódolási asszisztensként fejlesztett...

MA 20:19

A rózsa trónja: hogyan hódította meg a Valentin-napot?

🌹 A rózsa napjainkban a szenvedély, a romantika és a szerelem örök szimbóluma – a világon minden évben rengeteg rózsát termesztenek, és a Valentin-napon adják el a legtöbbet...

MA 19:55

Az agy mintájára születnek a jövő szuperszámítógépei

💻 Fontos kérdés, miként lehet a rendkívül energiaigényes szuperszámítógépes számításokat hatékonyabbá tenni...

MA 19:38

A világegyetem vandáljai: a száguldó fekete lyukak nyomában

👽 A James Webb-űrtávcső új megfigyelései szerint a fekete lyukak nem mindig maradnak a helyükön: néhányuk elképesztő sebességgel száguld keresztül az univerzumon, miközben új csillagokat hagynak maguk után...

MA 19:20

Az MI elvérzik a legkeményebb matekteszten

Az elmúlt héten komoly próbának vetették alá a legfejlettebb MI-rendszereket: tizenegy vezető matematikus adott tíz darab, eredetiséget igénylő, úgynevezett „lemma”-problémát, amelyek megoldását egy hét alatt várták a mesterséges intelligenciától...

MA 19:01

A legújabb trükk: papírlevéllel fosztják ki a kriptotárcákat

Levelet küldenek a csalók a hardveres kriptotárcák, például a Trezor és a Ledger felhasználóinak, hogy rávegyék őket: adják meg a pénztárcájuk helyreállításához szükséges helyreállító kifejezést (seed phrase)...

MA 18:56

Az MI a kétkezi munka világát is fenekestül felforgatja

Olyan korszakot élünk, amikor bármikor bekövetkezhetnek nagyobb fennakadások az alapvető szolgáltatásokban...

MA 18:38

A filléres kütyü, ami megmentette a szobanövényeimet

Érdekes felvetés, hogy mennyire nehéz életben tartani a szobanövényeket, főleg télen...

MA 18:20

Az Amazon Ring dobja a rendszámfigyelést – Túl sok a Nagy Testvér?

🚘 Az Amazon tulajdonában lévő Ring, a népszerű okoscsengő-gyártó, felbontotta együttműködését a Flock Safety céggel, amely az USA vezető rendszámfelismerő kamerarendszereit üzemelteti...

MA 18:02

Az aktív hűtéses Qi2-töltő új korszakot nyit a vezeték nélküli töltésben

🔋 Érdekes felvetés, hogy a vezeték nélküli töltés mennyire megosztó: kényelmes ugyan, de sokáig a lassú töltés, a túlmelegedés és az akkumulátorkímélés hiánya miatt inkább kábelre szavaztak a techrajongók...

MA 17:56

Az űr mélyének titkai: Mi lesz a Kuiper-öv sorsa?

🛰 Külön említést érdemel, hogy a Neptunuszon túl, a Naprendszer peremén húzódik egy rejtélyekkel teli övezet: a Kuiper-öv...

MA 17:38

Az íróasztaljóga: Szabadulj meg a gamer hátfájástól percek alatt

Az ülőmunka és a videojátékok hosszú órái szinte észrevétlenül rontják a testtartást, ami váll- és hátfájdalmakkal, feszes csípőhajlító izmokkal és gyengülő törzsizmokkal jár...

MA 17:19

Az évtized nagy kérdése: Bitcoin vagy XRP lesz a nyertes?

A Bitcoin és az XRP teljesen eltérő szerepet töltenek be a kriptovaluták világában...

MA 17:01

Az infláció hűlésével ismét 70 ezer dollárig száguld a Bitcoin

📈 A bitcoin árfolyama idén februárban egy komoly zuhanás után visszatért a 70 ezer dolláros (mintegy 25,6 millió forintos) szintre, miután az amerikai inflációs adatok a vártnál alacsonyabbak lettek, és a befektetők kockázatvállalási kedve is megnőtt...

MA 16:57

A legjobb omega-3 készítmények rangsora: melyiket érdemes venni?

Külön említést érdemel, hogy az omega-3 zsírsavak a szervezetben létfontosságú szerepet játszanak: támogatják sejtjeink működését, energiaszolgáltatók, és jótékonyan hatnak a szívre is...

MA 16:19

Az öt legegészségesebb diéta: tényleg meghosszabbítják az életünket?

🍎 Ebből következően érdemes megérteni, hogy a gyümölcsökben, zöldségekben gazdag étrend nemcsak rövid távon javítja az életminőséget, hanem mérhetően hozzájárulhat a hosszabb élethez is...

MA 16:01

Az IBM QRadar végre összeállt a Criminal IP-vel

Az MI-alapú fenyegetésfelderítő platform, a Criminal IP (criminalip.io) mostantól teljes mértékben integrálható az IBM QRadar SIEM és QRadar SOAR megoldásaival...

MA 15:56

Az egekbe szökő memóriaárak térdre kényszerítik a routerpiacot

A távközlési szolgáltatók kemény akadályba ütközhetnek a 2026-os nagysebességű hálózatkiépítések során...

MA 15:37

Az axolotl csodája: teljesen képes újjáépíteni immunrendszerét

🦕 A mexikói axolotl, a vízi szalamandra már híres arról, hogy képes újranöveszteni elvesztett végtagjait és gerincvelőjét...

MA 15:20

Egy óriáscsillag robbanás nélkül tűnt el – fekete lyuk született Andromédában

🪾 Egy óriáscsillag látványos szupernóva helyett szinte hangtalanul omlott fekete lyukká az Androméda-galaxisban...

MA 14:20

A viking óriás agyműtétje és Kína zöld forradalma: két világot rengető áttörés

🧠 Jól példázza mindezt, hogy Kína mára elképesztő mennyiségű fát ültetett, és így egyik legnagyobb sivatagának jelentős része mára hatalmas szén-dioxid-elnyelő területté vált...

MA 14:02

A gyémántalapú félvezetők forradalma: megérkezett a valódi szuperanyag

💎 Az elmúlt évtizedekben a mérnökök a félvezetőtechnológiában próbálják bevetni a gyémántot, a szilícium lehetséges alternatívájaként...

MA 13:55

A kanyaró visszatért: már közel ezren fertőzöttek

Február közepére már közel 1000 kanyarós megbetegedést regisztráltak az Egyesült Államokban, miután az oltottsági arányok tovább csökkentek, és a tavalyi meredek növekedés után az esetszám tovább emelkedik...

MA 13:37

A Nintendo VR-forradalma: Mario és Zelda jön a Switch 2-re

A Nintendo ismét előállt valami meglepővel: a Virtual Boy kiegészítőjével végre VR-módban játszhatsz olyan nagyágyúkkal, mint a Super Mario Odyssey, a Super Smash Bros...

MA 13:19

A Nova Launcher marad az androidosok első számú kedvence?

📱 Nehéz volna túlbecsülni, milyen hullámvasúton ment keresztül az elmúlt években a Nova Launcher...

MA 13:01

Az új Gboard: Billentyűzet, vagy már inkább érintőpad?

👌 A Gboard hamarosan egy új kurzormódot kaphat, amely a billentyűzetet virtuális érintőpaddá alakítja...

MA 12:37

A Wendy’s százával zárja be éttermeit – bajban a lánc?

Az amerikai Wendy’s több száz éttermének bezárását jelentették be, miután sorozatosan romlottak az amerikai eladások...

MA 12:20

Az aranykornak vége: miért bukott meg a VR?

Tipikus eset, amikor hatalmas ígéretekkel indítanak el egy új technológiát, amely végül nem váltja be a hozzá fűzött reményeket...