2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 20:20

Az indiai AI-adómentesség: adó nélkül csábítanák a techvilágot

💰 India 2047-ig teljes adómentességet ajánl a külföldi felhőszolgáltatóknak, ha MI-munkaterheléseiket indiai adatközpontokból működtetik, és azokat külföldre értékesítik...

MA 20:03

Az ősi földek titkait feltáró lézerszkenner: kié valójában?

🔬 Például képzeld el, ahogy egy repülőgép sebesen átszeli az eget, miközben milliónyi lézernyalábot zúdít egy sűrű trópusi erdőre...

MA 19:56

Az orr rejtélye: miért dönt le egyeseket a nátha, másokat nem?

Érdemes megérteni, mi áll a közönséges nátha eltérő lefolyásának hátterében. Míg sokan csak enyhe orrfolyással és köhögéssel megússzák, másoknál komoly légzési nehézségekig is vezethet egy egyszerű náthavírus...

MA 19:37

Az USA új áramtermelése 2026-ra majdnem teljesen zöldre vált

Az Egyesült Államokban 2026-ra az új áramtermelő kapacitás 99%-a megújuló forrásokból és akkumulátoros tárolásból érkezik majd...

MA 19:20

A rovarirtás jövője: támadnak a gombák

🐞 A házakban, erdőkben és kertekben élő faéhes rovarok, például a szúfélék, termeszek és ácshangyák folyamatos kihívást jelentenek...

MA 19:03

Az igazság az éjszakai vezetőszemüvegekről: tényleg segítenek?

A modern autók fényszórói az éjszakai közlekedést sokak számára rémálommá teszik...

MA 18:56

A mesterséges intelligencia felfedi, kié a dinoszaurusz-lábnyom

Egy új mobilalkalmazás forradalmasítja a dinoszaurusz kutatását: az MI-alapú DinoTracker bármilyen dinoszaurusz-lábnyomról, akár egy fotó vagy rajz alapján, néhány pillanat alatt megmondja, melyik ősállat járhatott arra évmilliókkal ezelőtt...

MA 18:36

Lebukott az amerikai kémműholdprogram: kiszivárgott a titok

🔎 Negyven év után végre nyilvánosságra hozták az Egyesült Államok egyik leghíresebb titkos műholdprogramját, a JUMPSEAT-et...

MA 18:21

Az eltűnt elemek titka: rejtély a Föld ősi magjában

A Föld összetétele évtizedek óta zavarba hozza a tudósokat: bolygónk köpenyében és kérgében szinte alig találhatók meg bizonyos, könnyebb elemek...

MA 18:02

Az MI-hez már csak díjnyertes írók kellenek?

Elon Musk új MI-cége, az xAI meglepően magas követelményeket állított a legújabb írásspecialista pozíció betöltéséhez, ami a hétvégén az interneten is sokak figyelmét felkeltette...

MA 17:55

Az Ayaneo Pocket S Mini újraéleszti a retró játékélményt

🎮 A retró játékok szerelmesei örülhetnek: az Ayaneo új kézikonzolja, a Pocket S Mini, végre igazi 4:3 képaránnyal idézi meg a klasszikus PlayStation- és Nintendo-korszakot...

MA 17:37

Az okostelefon PC-ként: így óvd az akkumulátort!

🔋 A PostmarketOS rendszer lehetőséget kínál arra, hogy leselejtezett okostelefonokból újrahasznosítható, általános célú számítógépeket varázsoljunk...

MA 17:19

A titokzatos denevérvírus már embereket is fertőz

💀 Bangladesben öt páciens szervezetében azonosították a denevérek által terjesztett Pteropine orthoreovírust (PRV)...

MA 17:01

A rejtett kvantumgeometria leleplezi az elektronok görbületét

Egy friss tudományos áttörés rávilágított arra, hogy egy eddig rejtett kvantumgeometria úgy hajlítja az elektronokat, ahogy a gravitáció görbíti a fényt...

MA 16:38

A Broadcom térdre kényszeríti az európai felhőszolgáltatókat

Az európai vállalkozásokat megrengetheti a Broadcom legújabb lépése, amely drasztikusan átalakítja a VMware-felhőpartnerek világát...

MA 16:22

Az új Lenovo Yoga Pro 9i 16 Aura Edition a kreatívok álomgépe

A Lenovo ráérzett, mire van szüksége a mai tartalomgyártóknak és profiknak: nagy teljesítmény, minőségi kijelző, halk működés és hordozhatóság...

MA 16:02

Az AstraZeneca nagy játszmája: kínai milliárdok, amerikai tőzsdei ambíciók

A brit AstraZeneca újabb nagy fordulóponthoz érkezett: 2026 elején bejelentették, hogy jelentős beruházással erősítenék kínai jelenlétüket, miközben részvényeiket hétfőtől a New York-i tőzsdén is jegyzik...

MA 15:38

Az elektromosautó-piaci megtorpanás felforgatja az amerikai Dél gyárait

🚘 Az elmúlt években autógyártók, akkumulátorgyártók és beszállítók több százmilliárd dollárt – közel 73 000 milliárd forintot – fektettek be az elektromos járművek (EV) gyártásába az Egyesült Államokban, ebből csaknem a felét a déli régiókban, főként republikánus vezetésű államokban...

MA 15:19

A Micron lehet az MI-forradalom nagy nyertese: óriásit ugorhat 2026-ban

Az MI-infrastruktúra-fejlesztés idén új lendületet kapott, és a tőzsdei szereplők egyre inkább a félvezetőszektorra, azon belül is az eddig kevésbé reflektorfényben lévő cégekre figyelnek...

MA 15:02

Az óriásleépítés új irányt szab Zuckerberg jótékonyságának

💰 A Chan Zuckerberg Initiative (CZI) 2026-ot jelentős átalakításokkal indította: 70 munkatársat bocsátottak el, hogy átformálják a szervezetet, és az erőforrásokat az MI-alapú biomedicinai kutatások felé irányítsák...

MA 14:55

A Richard-rejtély: a középkori pecsét, amely római kincset őriz

Egy különleges középkori pecsétnyomót találtak Essex megyében, amely nemcsak koránál fogva, hanem titokzatos összetétele miatt is lenyűgöző...

MA 14:19

Az arany bukása után a kriptó is összeomlott

A hétvégén jelentős esésbe fordultak a kriptovaluták, miután a bitcoin értéke 79 000 dollár (kb...

MA 14:04

Az üzleti jövő laptopja: Asus ExpertBook Ultra 2026

Az Asus legújabb ExpertBook Ultra laptopja egyszerre célozza meg az üzleti felhasználókat és a technológiai újítások rajongóit...

MA 13:37

Az MI átírja a minneapolisi lövöldözések történetét

🔍 Az utóbbi napokban Alex Pretti halálos minneapolisi lövöldözésének képei és videói futótűzként terjedtek a közösségi oldalakon – ám ezek jelentős része mesterséges intelligencia által manipulált...

MA 13:20

A Hubble megmutatja, hol születnek a csillagok

A NASA Hubble-űrteleszkópja lenyűgöző felvételt készített a Skorpió csillagképben található Lupus 3 molekulafelhőről, ahol gáz- és porfelhők közepette fiatal csillagok születnek...

MA 13:04

Az MI-keresők csődöt mondanak: csak feldarabolják a technikai dokumentumokat

⚠ Fontos kérdés, hogy miért működnek annyira rosszul a vállalati MI-alapú keresők a bonyolult technikai dokumentumokkal, miközben elsőre azt ígérik, hogy bármilyen PDF vagy kézikönyv tartalmát percek alatt feldolgozzák...

MA 12:58

Az új kínai rövid videók felforgatják Latin-Amerikát

Latin-Amerikában forradalmian átalakul a videostreaming-piac, ahogy egyre nagyobb teret nyernek a Kínához köthető röviddráma-platformok...

MA 12:37

Az ex-Google mérnök lebukott: sorra szivárogtatta az MI-titkokat

A San Franciscóban tartott, 11 napos tárgyaláson a bíróság bűnösnek találta Linwei Ding volt Google-fejlesztőt, aki bizalmas MI-szuperszámítógép-technológiákat juttatott el kínai cégeknek...

MA 12:19

Az AYANEO végre tartja a határidőt: megjött a Pocket S Mini

Az AYANEO alaposan meglepte a játékos közösséget: ezúttal kihagyott mindenféle közösségi finanszírozást vagy hosszadalmas előrendelést, és az új Pocket S Mini kézikonzol már most elérhető, raktárról rendelhető...