2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 12:03

Az amerikai jólét átrendeződik: hol fialhat most a pénz?

A vállalatok hosszú távú sikerét ma már nem pusztán az határozza meg, milyen tehetségeket tudnak magukhoz vonzani, vagy mennyi pénzzel rendelkeznek, hanem hogy hol helyezik el működésüket, hogyan választják meg beszállítói láncaikat, illetve mely területeken ruháznak be...

MA 11:46

A hordozható monitorok olcsó királya? KYY K3 teszt

💻 A hordozható monitorok egyre elterjedtebbek, és manapság bőven válogathat mindenki a különböző modellek közül...

MA 11:23

Az Outlook megint bakizik: hibák, félmegoldások, bosszús felhasználók

🙁 A klasszikus Outlook asztali kliensben egyre több szinkronizációs és kapcsolódási probléma bosszantja a felhasználókat...

MA 11:12

Az egyetlen héliumforrás bedőlt, vészüzembe kapcsol a chipgyártás

Az iráni dróntámadások után Katar leállította a héliumexportot, ami nagyjából a világ ellátásának 30%-át üti ki...

MA 11:02

Az öt legnagyobb hiba, amit szénanáthaszezonban a légtisztítóval elkövethetsz

Tavasszal rengetegen szenvednek a szénanáthától, a pollenek okozta allergiás tünetektől pedig sokan próbálnak menekülni otthoni légtisztítóval...

MA 10:57

A Himax titka, ami felborítja a tech-világ erőviszonyait

A Himax részvényei csütörtökön berobbantak, és a vállalat helyzete egy csapásra megváltozott: az árfolyam több mint 16%-ot ugrott, 3 890 Ft-ra (10,63 USD) emelkedve...

MA 10:50

Az államok visszavágnak: újraindul a Live Nation elleni per

Az amerikai államok nagy része továbbra is harcol a Live Nation és a Ticketmaster ellen, amelyeket a koncertipar monopolhelyzetével vádolnak...

MA 10:45

Az új adókedvezmény felforgatja a szeniorok adózását

💸 2025 jelentős változásokat hoz a 65 év feletti amerikaiak adózásában. Egy új adókedvezménynek köszönhetően több idős ember csökkentheti adóalapját, így az éves elszámoláskor kevesebb adót kell fizetnie...

MA 10:29

Az MI már interaktív diagramokra is képes – tényleg?

A gépi tanulás sötét vizein evezve is egyértelmű, hogy a vizuális ábrázolás ereje most új szintre lépett...

MA 10:22

Az idegenek köztünk élnek? Spielberg szerint nem kizárt

👽 Steven Spielberg újabb meghökkentő kijelentést tett: komolyan gyanítja, hogy nem vagyunk egyedül a Földön...

MA 10:08

Az XRP hódít, de a token ára tovább zuhan

📈 Az XRP Ledger forgalma történelmi csúcsokat dönt, de a token árfolyama mélyrepülésben van...

MA 10:02

A brit betegek bizalmas adatai nyilvánosságra kerültek

Nagy-Britannia egyik legnagyobb orvosi kutatási adatbázisa, a UK Biobank, jelentős adatvédelmi botránnyal néz szembe: kutatók tucatnyi alkalommal szivárogtattak ki bizalmas egészségügyi adatokat az interneten...

MA 09:57

Az Adobe 27 milliárdot fizet a trükkös lemondásokért

Érdemes megvizsgálni, miként vált az Adobe előfizetési rendszere kellemetlenné a felhasználóknak: az amerikai igazságügyi minisztérium (DOJ) és a Szövetségi Kereskedelmi Bizottság (FTC) 2024-ben pert indítottak a cég ellen, mivel szerintük szándékosan bonyolulttá tették az előfizetés lemondását...

MA 09:51

A mikroplasztikok eltömíthetik az emberi immunrendszert

A kutatások egyre több bizonyítékot szolgáltatnak arra, hogy a szervezetben felgyülemlő mikroplasztikok súlyosan befolyásolhatják az immunrendszer működését...

MA 09:37

A növényekben rejtőző, 400 millió éves DNS-kapcsolók titkai

A tér mélyének felfedezése legalább annyira izgalmas a tudósok számára, mint az időé...

MA 09:22

Az AI-botok kicsinálták két hónap alatt az új Digget – jön a harmadik

🚀 Csalódott újrakezdők és egy, az AI-botokkal szemben teljesen tehetetlen csapat – a Digg Reddit-szerű újraindítása mindössze két hónapot bírt ki, mielőtt bezárták a platformot...

MA 09:16

Az MI sakkban ász, de a Nimben csúnyán leszerepel

🎲 Bár a Google DeepMind Alpha-sorozatának MI-jei szenzációs teljesítményt nyújtanak sakktáblán vagy Go-ban, meglepően egyszerű játékokban, például a Nimben hajmeresztő hibákat vétenek...

MA 09:10

Az MI-t már nem a bitek, hanem a wattok fékezik

⚡ Az elmúlt évtizedekben a mesterséges intelligencia fejlődését a lassú, drága számítógépek gátolták, ám ez az akadály mára szinte teljesen eltűnt...

MA 09:01

Az újabb kibertámadás sem törte meg a lengyel atomkutatást

🛠 Fontos kérdés, hogy mennyire biztonságosak a legfontosabb tudományos infrastruktúrák a folyamatosan növekvő kibertámadások korában...

MA 08:57

Az OpenAI Sora‑videókkal turbózná fel a ChatGPT-t

Ilyen eset például, amikor az OpenAI a Sora videógeneráló modelljét beépítené a ChatGPT-be...

MA 08:43

Az Xbox nagyot lép: érkezik a Copilot MI-asszisztens

Végre valami igazán menővel készül az Xbox: a Copilot nevű mesterségesintelligencia-asszisztens év végéig megérkezik a jelenlegi Xbox-konzolokra...

MA 08:36

A bélben termelt bakteriális szerotonin áll az IBS mögött?

🔨 Az irritábilis bél szindróma (IBS) kellemetlen, sokakat érintő emésztési rendellenesség, amely gyakrabban jelentkezik nőknél...

MA 08:29

Az FBI lecsapott: vírust terjesztő Steam-játékokat buktattak le

🕵 Az elmúlt két évben több ártalmas játék is felkerült a Steam platformra, amelyek titokban vírusokat telepítettek a gyanútlan játékosok gépeire...

MA 08:22

Az új Pokémon-őrület már a Garmin órákat is meghódítja

🚀 Lényeges újdonság, hogy a Garmin-felhasználók mostantól két teljesen új Pokémon Sleep óralapot tölthetnek le ingyenesen, ráadásul a mindennapi alvásfigyelés is játékosabbá válik...

MA 08:15

Az ókori harcos gyerekek titka: bronzövek a sírok mélyén

Dél-Olaszországban, Pontecagnano egykori dohánygyárának helyén 34 ókori sírt fedeztek fel, amelyek között két különös gyermeknyughely is feltűnt: a 2 500 éves sírokban két, 5–10 éves gyermeket felnőtt férfi harcosokra jellemző, nagy bronzövekkel temettek el...

MA 08:08

A titkos trónkövetelő, amely letaszíthatja a Chrome OS-t

🖥 A globális PC-piac zsugorodik, de a HarmonyOS látványos növekedésének köszönhetően új kihívó bukkant fel a mezőnyben...

MA 08:01

Az agy láthatatlan mérge: mikroműanyagok és a demenciaválság

Az emberek már észrevétlenül is mikroszkopikus műanyagdarabokat fogyasztanak el nap mint nap, amelyek komoly károkat okozhatnak az agyban...

MA 07:59

A csapból is szuperbaktériumok génjei folynak

Észak-Írország legnagyobb tavában, a Lough Neagh-ben, amely a lakosság mintegy 40 százalékának biztosít ivóvizet, többféle, antibiotikum-rezisztenciáért felelős gén jelenlétét mutatták ki...

MA 07:50

A valaha legkönnyebben javítható Apple-laptop: megérkezett a MacBook Neo

Az Apple legolcsóbb laptopja, a MacBook Neo meglepően javíthatónak bizonyult: az iFixit 6/10-es értékelést adott rá a szerelhetőség szempontjából...