2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 12:34

Az MI-exklónok: rémisztő játék, vagy valódi segítség a továbblépéshez?

🤖 A szakítás utáni időszak gyakran hoz felszínre furcsa megoldásokat. Egyre többen próbálják feldolgozni a fájdalmukat úgy, hogy digitális másolatot készítenek volt párjukról MI segítségével...

MA 12:23

A RecursiveMAS 2,4-szer gyorsítja a többügynökös következtetést, 75%-kal kevesebb token

⚡ A mesterséges intelligencia fejlesztésének egyik legnagyobb kihívása az, hogy miként működtethetők hatékonyan olyan rendszerek, amelyekben több MI-ügynök dolgozik együtt...

MA 11:56

Az ingyenes reptéri Wi‑Fi veszélyes lehet a nyaralás alatt?

Érdekes felvetés, hogy a reptereken elérhető ingyenes Wi-Fi mennyire veszélyes lehet a személyes adataink szempontjából...

MA 10:37

Az 500 milliós kriptóbukó: zuhan a bitcoin, mínuszban a piac

A kriptopiacot jelentős veszteségek rázták meg, miután a bitcoin árfolyama hirtelen 3 százalékkal 78 000 dollárra (kb...

MA 10:28

Az Overwatch balul sikerült jubileumát jövő héten ajándékokkal foltozzák, később több jön

🎁 Érdekes felvetés, hogy a 10. évfordulójára szervezett Overwatch-esemény mennyire okozott csalódást a játékosok körében...

MA 10:19

Az Overwatch–Fortnite kollab miatt megint Tracer fenekéről beszélünk

A játékvilág újra Tracer körül forog, ezúttal azonban nem a képességei, hanem a megjelenése borzolja a kedélyeket...

MA 10:01

A bíró letiltotta a félrevezető Kars4Kids-reklámokat Kaliforniában

A Kars4Kids nevű nonprofit szervezet hírhedt rádióreklámjaival évek óta az őrületbe kergeti a hallgatókat, ám most egy bírósági döntés miatt le kell állítania ezek sugárzását Kaliforniában...

MA 09:46

A fény ujjlenyomata leszámolhat a deepfake-kel és álhírekkel

Egy brit startup, a Lightmark forradalmasítaná a videók hitelesítését: a hagyományos, utólagos ellenőrzés helyett a felvétel pillanatában titkos fényujjlenyomat kerül a felvételre...

APP
MA 09:11

APPok, Amik Ingyenesek MA, 5/16

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     War Mongrels (iPhone/iPad)A War Mongrels egy izometrikus nézetű, valós idejű taktikai játék, mely a második világháború keleti frontján játszódik...

MA 09:01

A kalózok csendre intik egymást a Subnautica 2 illegális másolatai miatt

🕺 A Subnautica 2 korai hozzáférésű változatát még a hivatalos megjelenés előtt kiszivárogtatták, és sokan büszkén hencegtek azzal, hogy ingyen játszanak, ahelyett hogy fizetnének a 11 000 forintos játékért...

MA 08:02

Az Intercom, ma már Fin, MI-ügynököt indít, amely egy másikat irányít

Az MI-vezérelt ügyfélszolgálati rendszerek mára megkerülhetetlen szereplőivé váltak a vállalatok életében...

MA 07:46

Az utolsó titán: Délkelet-Ázsia legnagyobb dinoszauruszát találták Thaiföldön

Mintegy 100 millió évvel ezelőtt a mai Thaiföld területén egy hatalmas, hosszú nyakú növényevő dinoszaurusz vándorolt, amelynek most felfedezett maradványai átírják Délkelet-Ázsia földtörténetét...

MA 07:37

Az igazi vállalati csata: nem a modellekért, hanem az ügynökvezérlésért

Erre utal többek között az, hogy a legnagyobb technológiai óriások nemcsak abban versengenek, kinek a modellje válaszol jobban a kérdésekre, hanem abban is, hogy melyikük teszi le az asztalra azt az infrastruktúrát, ahol az MI‑ügynökök élnek és dolgoznak...

MA 07:28

Az elhagyott Love Live! domainért 225 milliárdnál tart a licit

💰 Japánban egyre nagyobb a felháborodás a Szerelem, élőben! (Love Live!) univerzum rajongói körében, miután feltűnt, hogy az Aqours hivatalos rajongói klubjának domainje lejárt, és most árverésen próbálják értékesíteni – a jelenlegi vezető licit pedig elképesztő, több mint 225 milliárd forintot, azaz 97 milliárd jent tesz ki...

MA 07:10

A legnagyobb El Niño az 1870-es évek óta közeleg – súlyos humanitárius következményekkel

A világ egyre közelebb kerül egy olyan El Niño-eseményhez, amely hatásaiban valószínűleg felülmúlja az elmúlt másfél évszázad összes hasonló időjárási ciklusát...

MA 07:01

Az OLED-háború élesedik: a Samsung árakkal támadja az LG-t

A Samsung új OLED tévéi 2026-ban végre hivatalos árcédulát kaptak, és a gyártó lépésről lépésre az LG babérjaira tör...

MA 06:55

A Coros órák megkapják az Apple- és Garmin-féle hangvezérlést egy nagy frissítéssel

A Coros okosórák tulajdonosainak új, nagyszabású, új funkciókat tartalmazó frissítés érkezik...

MA 06:47

A Withings ScanWatch 2 teszt: lenyűgözően elegáns, egészségközpontú EKG-okosóra

Érdekes felvetés, hogy a legtöbb okosóra inkább sportos vagy robusztus megjelenésével próbál kitűnni, a Withings ScanWatch 2 viszont egészen más irányba viszi az okosóra-koncepciót...

MA 06:28

A titok nyitja: a toll az e‑papíros tabletek királya

🖋 Külön említést érdemel, hogy több mint egy tucat digitális jegyzetfüzet kipróbálása után kiderült: a legfontosabb tényező egy e-ink táblagép esetében nem maga a táblagép, hanem a hozzá tartozó toll – pontosabban annak apró hegye és a papírra írás érzetének minősége...

MA 06:05

Történelmi események a mai napon (Május 16.)

Miért különleges ez a nap? A varsói gettófelkelés vége, az első Oscar-gála, az első működő lézer és a kínai kulturális forradalom startja mind ide esik – sőt, az Endeavour utolsó űrrepülése is...

péntek 21:45

A kannabisz 65 felett biztonságos? Öt veszély, amit ismerni kell

👪 Az utóbbi években a kannabiszhasználat rohamosan nőtt az idősebb korosztály körében is: egyre többen fordulnak hozzá krónikus fájdalom, álmatlanság vagy szorongás enyhítésére...

péntek 21:22

Az agy boldogsághormonja titokban gerjesztheti a fülzúgást

😱 Már régóta ismert, hogy a fülzúgás – vagyis az állandó, zavaró csengés, búgás vagy zúgás a fülben – milliók mindennapjait nehezíti meg világszerte...

péntek 21:12

A Googlebook berobban: kilép a Chromebook árnyékából?

Az Apple innovációi után a Google és az Intel is lépett: együtt mutatták be közös notebookjukat, amelyet egyelőre csak Googlebook néven emlegetnek...

péntek 21:01

A Zee TV bárhol a világon: így nézheted VPN-nel

Zee TV-t szeretnél nézni Indián kívül, akár külföldi utazás vagy tartósabb kintlét alatt?..

péntek 20:57

A ConcernedApe új játéka nagyobb, sötétebb és kegyetlenebb

Eric Barone, a Csillagharmat-völgy (Stardew Valley) megalkotója az utóbbi években minden energiáját következő játékára, a Kísértetjárta Csokoládékészítőre (Haunted Chocolatier) fordítja...

péntek 20:45

A nagy tőzsdék vizsgálatot sürgetnek a Hyperliquid manipulációs kockázatai miatt

📊 A Hyperliquid nevű decentralizált derivatív tőzsde egyre nagyobb figyelmet kelt az amerikai pénzügyi óriások, a CME Group és az Intercontinental Exchange (ICE) körében...

péntek 20:33

Az 5%-os hozam visszatért a hosszú amerikai állampapírra, 2007 óta először

💰 Először 19 év után ismét 5%-os hozammal kínáltak 30 éves amerikai államkötvényt, ami jelentős fordulatot hozott a befektetői piacon...

péntek 20:23

A tudósok megfejtették az antarktiszi tengeri jég rejtélyes összeomlását

Egy lényeges szempont, hogy az Antarktisz körüli tengeri jégtakaró szinte példátlan gyorsasággal kezdett eltűnni 2015-től, pedig azt megelőzően évtizedekig stabilnak tűnt...

péntek 19:56

A láthatatlan koleszterinveszély, amelyről minden ötödik ember nem tud

Többek között több mint 20 000 önkéntes adatait elemezték kutatók, és kiderült: számos embernél akkor is fennáll a szív- és érrendszeri betegségek kockázata, ha a hagyományos kezeléseket megfelelően kapják...