MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

hétfő 20:49

A botrány az OpenAI-nál: jönnek a reklámok a ChatGPT-be?

💥 A ChatGPT felhasználói az utóbbi hetekben bosszankodhattak, amikor a népszerű csevegőalkalmazás váratlanul népszerűsített bizonyos szolgáltatásokat...

hétfő 20:18

Az MI csiszolja a diákok írását, de a jegyeken nem segít

A brit Warwicki Egyetem csaknem 5000 hallgatói dolgozatot vizsgált tíz éven át, és azt találta, hogy 2022 óta, a ChatGPT megjelenése nyomán a diákok írása sokkal kifinomultabb, formálisabb és pozitívabb lett – miközben a jegyek gyakorlatilag nem változtak...

hétfő 20:02

A fordulat: az európai felhasználók visszavágnak a célzott reklámoknak

Az Instagram és a Facebook felhasználói az Európai Unióban hamarosan korlátozhatják, mennyi személyes adat alapján jelenjenek meg nekik hirdetések...

hétfő 19:49

Az Amazon MI-kollégákkal csábít, miközben tömegesen leépít

Az Amazon éves re:Invent konferenciáján Las Vegasban új munkahelyi jövőképet festett: az MI-ügynökök mostantól nem pusztán eszközök, hanem igazi kollégák lehetnek – miközben a cég újabb jelentős létszámleépítést hajt végre...

hétfő 19:34

Az újabb leminősítés padlóra küldte a Tesla részvényeit

📈 A Tesla részvényei 3%-ot estek hétfő reggel, miután a Morgan Stanley új elemzője, Andrew Percoco leminősítette a vállalat papírjait, visszavéve korábbi optimista álláspontját...

hétfő 19:19

Az olcsó óriás e-bringa: mire képes a Lectric XPress 750?

Nem mindennapi öröm, ha egy e-bike tényleg képes jól kiszolgálni a magasabb bicikliseket is...

hétfő 19:02

Az arany ára elszállt: ékszertulajdonosok, most figyeljenek!

💎 Az elmúlt évben az arany és más nemesfémek ára soha nem látott magasságokba emelkedett, ami az ékszerek értékét is jelentősen megdobta...

hétfő 18:49

A Paramount bekebelezné a teljes Warner Bros. Discoveryt

📦 A Paramount most 38 400 milliárd forint összegű, agresszív felvásárlási ajánlattal próbálja megszerezni a teljes Warner Bros...

hétfő 18:33

A bélflóra titkos fegyvere: a TMA és a cukorbetegség

🧠 Érdemes megvizsgálni, milyen fontos szerepet játszik az egészséges emésztőrendszer a cukorbetegség megelőzésében és kezelésében...

hétfő 18:18

A dugódíj véget vet a káosznak: fellélegezhet Manhattan

Lényeges, hogy a New York-i dugódíj 2025 eleji bevezetése látványos változásokat hozott a város életébe...

hétfő 16:34

Az igazi sokk: távozik Buffett befektetési jobbkeze

💸 Warren Buffett, a Berkshire Hathaway legendás vezére idén visszavonul, ennek előkészítéseként jelentős átalakításokat hajt végre a cégnél...

hétfő 16:18

A Tejútrendszer nem ütközésből született: kettős kémiai lenyomat árulkodik

🌌 Rejtélyes kémiai mintázatok bukkantak fel a Tejútrendszer csillagai között: két jól elkülöníthető csillagcsoport létezik, amelyek vas- és magnéziumtartalma jelentősen eltér...

hétfő 15:34

Az oroszok megint szigorítanak: tiltólistára kerül a FaceTime

Az orosz hatóságok újabb szintre emelték az online kommunikáció ellenőrzését: csütörtökön bejelentették, hogy korlátozzák az Apple videóhívó szolgáltatását, a FaceTime-ot...

hétfő 15:18

Az MI-böngészők tiltólistán: veszélyben az adataink

Egyre több szervezet kerül szembe az úgynevezett ügynökjellegű böngészőkkel, amelyek már messze túlmutatnak a megszokott böngészési élményen...

hétfő 15:02

A szárazság végezhetett az igazi hobbitokkal

🧙 A Homo floresiensis, ismertebb nevén a hobbit, egy kis termetű, ősi emberfaj képviselője, amely körülbelül 50 ezer évvel ezelőtt tűnt el a Föld színéről...

hétfő 14:49

A tűzoltás hanggal: víz nélkül is legyőzi a lángokat?

A heves erdőtűz gyorsan terjed a száraz bokrok között, és megközelíti a házakat, de az egyik otthon makacsul ellenáll a lángoknak...

hétfő 14:34

A Tesla új frissítése: túrázz a Mikulással, MI-vel

Megérkezett a Tesla 2025-ös ünnepi frissítése, amely minden eddiginél több újdonságot ígér...

hétfő 14:17

Az első olvadéksó-üzemanyag forradalmasítja az atomreaktorokat

Az amerikai Idaho Nemzeti Laboratórium előállította a világ első kloridalapú, olvadt sóból készült üzemanyagát gyorsreaktorokhoz...

hétfő 14:02

Az éghajlati válság házhoz jön – és végre észbe kapunk

🏖 A kommunikáció apró módosítása, például ha megemlítik a lakóhelyedet egy figyelmeztetésben, drámai módon növelheti a felkészülési hajlandóságot a természeti katasztrófákkal szemben...