2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 16:38

Az ázsiai techóriás belép a felhőpiacra

A Yahoo Japan és a LINE 2021-es egyesülése nem csupán a cégméretet növelte meg, de teljesen új alapokra helyezné a régiós digitális szolgáltatásokat is – most bejelentették, hogy három éven belül teljesen egységes, privát felhőinfrastruktúrát szeretnének kialakítani...

MA 16:19

Az MI már másodpercek alatt kiértékeli az agyi MR-felvételeket

Egy új, a Michigani Egyetemen kifejlesztett MI-rendszer képes másodpercek alatt kiértékelni az agyi MRI-felvételeket, 97,5%-os pontossággal azonosítva a neurológiai betegségeket, és segítséget nyújtva a sürgősségi esetek felismerésében is...

MA 16:01

A napi valódi kávé távol tarthatja a demenciát

Sokan érzik úgy, hogy a napi kávé vagy tea élesíti az elmét – és most ezt tudományosan is alátámasztják...

MA 15:55

Az új Pixel 10a és a nagy FaceTime-félreértés

A Google hivatalosan is megerősítette, hogy a Pixel 10a február 18-án előrendelhetővé válik, és kiemelte, hogy ez lesz eddig a legstrapabíróbb Pixel A-szériás modell...

MA 15:38

Az elhízás elleni gyógyszerháborúban perel a Novo Nordisk riválisát

💉 Az Ozempic és a Wegovy készítményeiről ismert Novo Nordisk jogi lépéseket tett a rivális Hims & Hers ellen az Egyesült Államokban, mert szerinte veszélyes, hamisított fogyókúrás gyógyszereket árusít...

MA 15:02

Az elhízás jelentősen növeli a súlyos fertőzések kockázatát

Erre utal többek között az, hogy egy friss, nagyszabású kutatás szerint azok, akik elhízottak, jelentősen nagyobb arányban kerülnek kórházba, illetve halnak meg különféle fertőzések miatt, legyen szó vírusokról, baktériumokról, gombákról vagy parazitákról...

MA 14:56

Az Aadhaar tarol: igazolvány helyett app, az aggályok maradnak

🛠 India most minden eddiginél mélyebben igyekszik beépíteni az Aadhaar lakossági digitális azonosítórendszert a mindennapi életbe...

MA 14:37

Az igazi verseny kezdődik? Lazít az Apple és a Google az appboltokon

Az Egyesült Királyság versenyhivatali fellépése miatt az Apple és a Google kénytelen lesz módosítani alkalmazásáruházaik működését...

MA 14:19

A világ legtisztább égboltjai megmenekültek – fellélegezhetnek a csillagászok

A chilei égbolt tisztaságát évtizedek óta a világ vezető csillagászai figyelik...

MA 13:55

Az évszázad kriptócsalása: 20 év börtön a vezérnek

Egy kínai és Saint Kitts és Nevis-i állampolgárságú férfit távollétében húsz év börtönre ítéltek, amiért részt vett egy nemzetközi, úgynevezett „pig butchering” (szerelmi csalás) típusú kriptovaluta-befektetési átverésben, amellyel több mint 26 milliárd forintot (73 millió USD) csaltak ki áldozatoktól...

MA 13:19

Az MI orvosi tanácsa csak egy Google-kereséssel ér fel

Az MI-chatbotok villámgyors fejlődése ellenére az egészségügyi szakértők szerint nem alkalmasak valódi orvosi tanácsadásra...

MA 13:02

Az ADHD-kezelések kulisszatitkai: mi válik be, mi nem?

💡 Az ADHD világa sokszor zavaros: egymásnak ellentmondó ajánlások, bizonytalan hatású módszerek és éveken át tartó találgatás nehezítette a döntést orvosoknak és érintetteknek egyaránt...

MA 12:55

Az Alibaba áttörése: MI-jük már robotokat is irányít

🤖 A kínai Alibaba bemutatta legújabb mesterségesintelligencia-modelljét, a RynnBrain-t, amelyet kifejezetten robotok számára fejlesztettek...

MA 12:38

A pofonegyszerű jelszólopás: amikor még MI sem kell

Egy lényeges szempont, hogy a jelszavak mindig is feszültséget jelentettek a felhasználói élmény és a biztonság között...

MA 12:19

Itt az Aluminum OS, a Google új MI-alapú platformja

A Google nagy dobásra készül: az Aluminium OS-sel egyesíti a Chrome OS-t és az Androidot, így egy közös, számítógépekre szánt rendszert hoz létre...

MA 11:56

Az Instagram és a YouTube szándékosan tesz minket függővé?

👀 Az Instagram és a YouTube tulajdonosait azzal vádolják, hogy szándékosan olyan “függőséggyárakat” hoztak létre, amelyek a gyerekek mentális egészségét veszélyeztetik...

MA 11:19

Az anyag szerkezete szabja meg a kvantumidő ritmusát

⚙ Az idő a hétköznapi érzékelésünk szerint folyamatosan áramlik, de a kvantumszinten egészen másképp viselkedik...

MA 10:58

A valóságon túl: több mint öt érzékünk van

Az emberek a világot nem elkülönült érzékeken keresztül tapasztalják. Szaglás, tapintás, hallás, látás és egyensúlyérzék folyamatosan hatnak egymásra, befolyásolják, hogyan érezzük az ételek ízét, a tárgyak textúráját vagy akár azt is, hogy testünk mennyire tűnik nehéznek...

MA 10:49

A Ring új frissítése mindent lát – így kapcsolhatod ki

A Ring legújabb funkciója, a Search Party, igazi nagy durranással jelent meg a Super Bowl-reklámok között, ám a vártnál jobban megijesztette az embereket: a tömeges, MI-alapú megfigyelés már nemcsak a sci-fi filmekben létezik...

MA 10:41

A mesterséges intelligencia percek alatt lebuktatja a csalókat: így véd a bank

Egy lényeges szempont, hogy a banki csalásvédelem mára olyan tempót és pontosságot követel meg, amely elképzelhetetlen lenne emberi beavatkozás mellett...

MA 10:33

Az idei tél markában: miért fagyunk még mindig?

Az Egyesült Államok keleti részén január óta szokatlanul hideg az idő – a hőérzet gyakran mínusz 25–30 Celsius-fok körül alakul, miközben a nyugati államokban rendkívüli meleg uralkodik...

MA 10:25

Az ismeretlen hacker a SolarWinds WHD adminjogaira vadászik

🔐 Decemberben egy ismeretlen támadó több SolarWinds Web Help Desk (WHD) rendszeren keresztül jutott be különböző szervezetek hálózataiba, ahol oldalirányú mozgással magas szintű hozzáférést biztosító hitelesítő adatokat szerzett...

MA 10:01

Az elektromos autók valóban tisztább levegőt hoznak?

A kaliforniai levegő érezhetően tisztul, ahogy egyre több elektromos autó és plug-in hibrid veszi át a hagyományos benzin- és dízelautók helyét...

MA 09:59

A Discord-botrány: kiszivárgott igazolványok, jön a kötelező korellenőrzés

Felmerül a kérdés, hogy biztonságban vannak-e az adataink a Discordon, ahol nemrég 70 000 felhasználó személyi igazolványa került illetéktelen kezekbe...

MA 09:49

A Super Bowl-reklám után azonnal a bankkártyádra hajt az AI.com

💵 Az AI.com nevű új oldal hatalmas feltűnést keltett a Super Bowl alatt sugárzott reklámjával, amelyre állítólag 30 milliárd forintot költöttek...

MA 09:42

A texasi nap turbózza az MI-t: a Google 1 gigawattnyit vásárol

☀ A Google hatalmas, 68 000 milliárd forintos (185 milliárd dolláros) beruházásra készül 2026-ban: új adatközpontokkal árasztja el a világot, amelyek a legfejlettebb MI-gyorsítókkal működnek majd...

MA 09:33

A nagy szingapúri telekomcégeket kínai hekkerek támadták meg

Szingapúr négy legnagyobb távközlési szolgáltatóját – a Singtel-t, a StarHub-ot, az M1-et és a SIMBA-t – legalább egyszer sikeresen feltörte a kínai UNC3886 kémcsoport 2024-ben...

MA 09:25

Az újabb Google-húzás: fizetősek lesznek a dalszövegek a YouTube Musicon

Nagyot húzott a Google: sok felhasználó hamarosan csak fizetős előfizetéssel érheti el a dalszövegeket a YouTube Musicon...

MA 09:17

Az ipari deepfake-átverések betörtek a mindennapjainkba

A deepfake-technológia fejlődésének köszönhetően ma már bárkinek lehetősége van profi, megtévesztő videókat és hanganyagokat készíteni, amelyekkel pénzt csalnak ki gyanútlan áldozatoktól...