2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 08:17

A Herkules-szentély és az elit sírok őrzik Róma titkait

A mai Róma északkeleti részén, a Via Pietralata közelében 2400 éves sírokat és egy Herkulesnek (Hercules) szentelt szentélyt tártak fel...

MA 08:02

A viharok után háborús övezetté vált Új-Zéland keleti partja

Új-Zéland Északi-szigetét napok óta rekordmennyiségű eső, viharok és földcsuszamlások sújtják, jelentős pusztítást okozva...

MA 07:57

Az MI-harc új frontján a ServiceNow átveszi az irányítást

A ServiceNow most az OpenAI-val szövetkezik, hogy a legújabb GPT-5.2 modellt beépítse MI- és Xanadu-platformjába...

MA 07:49

Az új LastPass-csalás: ne kattints a ‘Create backup’ csapdára!

A hackerek újabb adathalász kampányt indítottak a LastPass felhasználói ellen, hamis e-mailekkel próbálják megszerezni a legfontosabb jelszavakat...

MA 07:41

Az MI ellen lázadnak a sztárok: veszélyben az amerikai művészet

Több mint 800 művész, író, színész és zenész – köztük Cate Blanchett, Cyndi Lauper, George Saunders, Scarlett Johansson, Billy Corgan és az R...

MA 07:36

Az MI és a YouTube új frontot nyit a streamingháborúban

A BBC YouTube-ra költözik – de nem akárhogyan A BBC idén nagyszabású lépésre készül: mostantól kifejezetten a YouTube-csatornáira fog tartalmakat gyártani, ezzel teljesen új irányt vesz a brit műsorszolgáltató stratégiája...

MA 07:25

A Blue Origin új műholdhálózata rekordgyors internetet ígér

Jeff Bezos űrcége, a Blue Origin új, szupergyors műholdhálózattal próbálja lehagyni a SpaceX Starlinkjét...

MA 07:17

A YouTube-ot meghódíthatod a mesterséges intelligenciás hasonmásoddal

Az MI újabb hulláma robban be a YouTube-ra: hamarosan bárki készíthet saját magáról Shorts-videókat anélkül, hogy egyáltalán kamera elé állna...

MA 07:09

Az mRNS-oltás öt év után is felére csökkenti a melanóma kiújulását

Egy kisebb klinikai vizsgálatban a személyre szabott, mRNS-alapú vakcina hatásosnak bizonyult a magas kockázatú bőrrák, konkrétan a melanoma kezelésében: öt év után a kiújulás és a halálozás kockázatát közel felére csökkentette a hagyományos terápiához képest...

MA 07:01

Az Apple új MI-kitűzője: mindent hall az ingeden?

Az Apple ismét forradalmat tervez: ezúttal egy ruhára tűzhető MI-eszköz fejlesztésén dolgozik, amely leginkább egy AirTag vastagabb változatára hasonlít...

MA 06:57

Egy apró vérteszt-eltérés előre jelzi a halálos veseelégtelenséget

A vese egészségének felmérésére használt két vérvizsgálat eredményeinek eltérése komoly problémák, például veseelégtelenség, szívbetegség és halálozás korai előjelzője lehet...

MA 06:50

Az Atlanti-óceán mélyén Amerika elrejtett édesvízkincse szunnyad

Erre utal többek között az, hogy a Massachusetts partjai előtt hatalmas, édesvizet rejtő víztározót fedeztek fel a tengerfenék alatt, amely a becslések szerint akár 20 000 éves is lehet, és elegendő vizet tartalmaz ahhoz, hogy New York vízellátását 800 évig biztosítsa...

MA 06:41

Az új Cisco-sebezhetőségre rárepültek a hackerek

A Cisco súlyos biztonsági hibát javított a Unified Communications és a Webex Calling rendszereiben, amelyet a támadók már aktívan kihasználtak...

MA 06:33

Az emberek saját nyelvjárásukon szólítják a mézkalauzokat

Az észak-mozambiki falvak lakói egészen egyedi módon kommunikálnak a vadon élő mézkalauz madarakkal: régiónként eltérő, sajátos „nyelvjárásokat” használnak, hogy együttműködhessenek ezekkel az állatokkal...

MA 06:25

Az új holdküldetések mindent átírnak: sugárzás, történelem, titkok

A NASA három forradalmi új tudományos kísérletet indít a Hold felszínének vizsgálatára, amelyekkel alaposabban megismerhetjük a Hold környezetét, történetét és veszélyeit...

MA 06:17

A felhő bajban: súlyos hibák az MI-keretrendszerekben

Két súlyos biztonsági hiba került napvilágra a Chainlit nevű, vállalati körökben és felsőoktatásban is népszerű, nyílt forráskódú MI-alkalmazásfejlesztő keretrendszerben...

MA 06:05

Történelmi események a mai napon (Január 22.)

Ütközetek, forradalmak és mérföldkövek egy napon: a lengyel–litván januári felkelés fellángolása, az Oszmán Birodalom egyiptomi diadala, a Roe v...

MA 06:02

Az elveszett Diótörő-ember: az ősi állkapocs, ami mindent átír

Egy 2,6 millió éves fosszilis állkapocstöredék került elő Északkelet-Etiópiában, amely alapjaiban változtatja meg elképzeléseinket az emberelődök afrikai elterjedéséről...

szerda 20:55

A szuperbaktériumok rémálma: mesterségesen tervezett vírusok

A tudósok áttörő módszerrel, mesterséges úton terveznek és állítanak elő baktériumokat támadó vírusokat (bakteriofágokat), hogy legyőzzék az antibiotikum-rezisztens baktériumokat...