2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 06:49

Az MI‑böngészők új réme: a BioShocking-adatlopás

Felmerül a kérdés, hogy mennyire bízhatunk meg a mesterséges intelligenciával hajtott böngészőkben, ha egy új támadás képes kijátszani a biztonsági korlátokat...

MA 06:37

A Samsung szó szerint átformálja a hajlítható telefonjait?

Ahogy beköszönt a nyár, egyre hangosabbak a pletykák a Samsung legújabb összehajtható telefonjairól...

MA 06:06

Történelmi események a mai napon (Július 1.)

Ma háborúk fordulópontjai, birodalmak átrendeződései és új korszakokat nyitó tudományos, társadalmi mérföldkövek találkoznak...

MA 06:01

Az okosabb botvédelem mostantól megóvja a Teams-megbeszéléseket

🔒 A Microsoft fejlesztéseinek köszönhetően mostantól jóval biztonságosabbak lesznek a Teams-megbeszélések, hiszen egy új szabályozás lehetővé teszi, hogy a felhasználók blokkolják az engedély nélküli, harmadik féltől származó botok csatlakozását...

kedd 18:32

A Cleveland-i Fed elnöke szerint MI fűti az inflációt – jöhet újabb kamatemelés

A mesterséges intelligencia infrastruktúrája iránti fékezhetetlen igény egyre nagyobb mértékben fűti az inflációt – figyelmeztetett Beth Hammack, a clevelandi Szövetségi Tartalékbank elnöke...

kedd 18:01

A Samsung Messages júliusban leáll: ezt az 5 dolgot tedd meg azonnal!

⚠ A Samsung Messages alkalmazás hamarosan végleg eltűnik az amerikai felhasználók mobiljáról, így akinek fontosak a régi üzenetei, vagy továbbra is csevegni szeretne, érdemes minél előbb lépnie...

kedd 17:02

Az új CRISPR az epigenomot célozza, átírja a gének kapcsolóit

🔨 Felmerül a kérdés, hogy mi lenne, ha a betegségeket nem csupán a DNS szerkesztésével, hanem a gének működésének speciális beállításával lehetne kezelni?..

kedd 16:31

A Tata Electronicsnál múlt héten kiszivárogtak érzékeny iPhone-beszállítói adatok

Az elmúlt héten hatalmas adatlopás történt az indiai Tata Electronicsnál, ahol közel 630 GB-nyi bizalmas információ került illetéktelen kezekbe...

kedd 16:01

A YouTube-on már nézhető a Peacock – épp a vb-re!

A Peacock Premium Plus már elérhető a YouTube Primetime Channels szolgáltatáson keresztül, így mostantól közvetlenül a YouTube alkalmazásban is előfizethetsz rá, és nézheted az összes tartalmat – legyen szó mobilról, tabletről vagy okostévéről...

kedd 15:01

A Blackfield 2 millió dollárt követel a Nidec-től

💸 A világ egyik legnagyobb motor- és elektronikai alkatrészgyártójaként ismert, több mint 100 ezer embert foglalkoztató japán Nidec Corporation most hatalmas nyomás alatt áll: a Blackfield zsarolóvírus-banda 2 millió dollárt, vagyis körülbelül 726 millió forintot követel tőle...

kedd 14:32

A Sentryn át eltérítették a Claude Code-ot; Datadog, PagerDuty, Jira is veszélyben

A Claude Code MI-ügynök elleni támadás meglepő módon mindent kikerült, amit ma védelemnek nevezünk...

kedd 12:01

A kínai szuperszámítógép a világ leggyorsabbja, lehagyta Amerikát

A kínai LineShine nevű szuperszámítógép lett a világ leggyorsabbja, első ízben 2017 óta, hogy ismét kínai gép vezeti a mezőnyt...

kedd 11:31

A tenger alatti alagutaké a jövő Shetlanden: összekötnék a szigeteket

🚦 Érdemes megvizsgálni, hogy a Shetland-szigetek vezetése radikális változtatásra készül a közlekedésben: egy 1,5 milliárd angol font (650 milliárd forint) értékű terv szerint az elöregedő kompokat víz alatti alagutak válthatják fel a következő nyolc éven belül...

kedd 10:50

Az MI-láz: száguldó milliárdok, közeleg a következő válság?

A 19. század csatornaépítési és vasúti láza, a dotkom-lufi 2000-ből – mind gazdaságtörténeti példák arra, hogy valódi technológiai áttörések túlfűtött beruházási hullámokat indíthatnak el, amelyek végül recesszióval végződhetnek...

kedd 10:24

Az IBM rekordja: közel 100 milliárd tranzisztor egyetlen chipen

Az IBM újabb mérföldkőhöz érkezett a chiptechnológia világában: bemutatta a világ első, 1 nanométernél kisebb csíkszélességű technológiáját, mellyel egy körömnyi lapkán közel 100 milliárd tranzisztor kap helyet...

kedd 10:01

A milliónyi robbanó csillag hamarosan felfedheti a sötét energia titkát

💫 Az Univerzum tágulásának részletesebb vizsgálata és a titokzatos sötét energia megértése közelebb kerülhet, hála egy barcelonai kutatócsoport forradalmi megközelítésének...

kedd 09:49

Az emberiség túlélheti – a Föld megúszhatja a Nap halálát

Ez a jelenség jól illusztrálható azzal, hogy a Nap közel ötmilliárd év múlva lenyűgöző változáson megy keresztül: kifogy a hidrogén üzemanyagából, vörös óriássá duzzad, majd még nagyobb méretet öltve aszimptotikus óriáság állapotba lép, végül fehér törpévé zsugorodik...

kedd 09:37

A fiatalokat sújtó rákhullám mögött a gyorsabb biológiai öregedés áll?

Az elmúlt években egyre többen néznek szembe azzal, hogy már 50 éves koruk előtt súlyos betegségekkel, például mell-, vastagbél-, vese- vagy méhrákkal diagnosztizálják őket...

kedd 09:24

A Gemini már a személyes fotóidból is képeket varázsol

📷 A Google egyre többet tud rólunk, mostantól pedig a Gemini alkalmazáson keresztül már a személyes fotóink felhasználásával is egyedi képeket készít...

kedd 09:13

A Nissan elismerte: dolgozói adatai Oracle zero-day támadásban szivárogtak

Külön említést érdemel, hogy a Nissan jelenlegi és volt alkalmazottainak személyes adatai kerültek veszélybe egy kifinomult kibertámadássorozat során...

APP
kedd 09:11

APPok, Amik Ingyenesek MA, 6/30

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Lively Letters – Phonics (iPhone/iPad)Ez az alkalmazás villámgyorsan az App Store fizetős oktatási programjai élére tört...

kedd 09:01

A Disney és az Adobe Foundry AI-val álmodja újra a vidámparkokat

A Disney és az Adobe összefog, hogy teljesen új korszakot nyisson a szórakoztatóiparban: közösen tervezik a jövő tematikus parkjait, szállodáit és hajóútjait egy testreszabott MI-megoldás segítségével...

kedd 08:49

A NAIC csillapít: csak nyilvános PeopleSoft-adat a ShinyHuntersnél

Érdemes megérteni, hogy a National Association of Insurance Commissioners (NAIC) nagyszabású kibertámadás áldozata lett, miután egy Oracle PeopleSoft-szervert érintő, nulladik napi (zero-day) sebezhetőséget kihasználó támadás révén a ShinyHunters nevű csoport hozzáférést szerzett a szervezet rendszereihez...

kedd 08:37

Az ausztrál versenyhatóság perre viszi az Amazont a tisztességtelen Prime-feltételek miatt

Jó példa erre, hogy Ausztrália versenyhivatala, az ACCC pert indított az Amazon helyi részlege ellen, miután a cég a Prime-előfizetések feltételeit állítólag egyoldalúan, a fogyasztók kárára módosította...

kedd 08:25

Az utolsó esély: a NASA példátlan küldetésre készül a haldokló űrtávcsőért

🚀 A világűr egyik legmegbízhatóbb teleszkópja, a Swift, napjai meg vannak számlálva...

kedd 08:12

A kutatók szerepmodell-trükkel csalták ki az MI-ből kokainrecepteket

A fejlett szövegértelmező rendszerek, mint a modern nagy nyelvi modellek, újfajta támadásokkal néznek szembe...

kedd 08:01

Az MI csődöt mondott, a Ford visszahívta a rutinos mérnököket

🚗 A Fordnál a minőségi problémák tartós fennállása miatt vezetői szinten beismerték: a mesterséges intelligencia önmagában nem jelentett megoldást a hibákra...

kedd 07:49

Az MI leleplezve: a Tidal címkézi és törli a csaló zenéket

A zenehallgatás új korszakába lép a Tidal: hamarosan egy jól látható „MI” ikon jelenik meg azoknál a zeneszámoknál, amelyeket kizárólag mesterséges intelligencia hozott létre...

kedd 07:37

Az áttörés küszöbén: önmegsemmisítésre bírhatók a hasnyálmirigyráksejtek

Ebből következően érdemes megérteni, hogy a hasnyálmirigyrák továbbra is az egyik legnehezebben kezelhető daganatos betegség, főként a KRAS-mutációk gyakori jelenléte miatt...