2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 06:36

Az MI-ügynökök startuplázat robbantottak a Consensus Miami EasyA hackathonon

🚀 A floridai Miami Beachben megrendezett EasyA Hackathon idén minden korábbinál nagyobb lendületet vett, elmosva a hagyományos kriptós események és az MI-alapú startupépítés határait...

MA 06:28

Az altcoin-rali kilövi a Coinbase-t, a bitcoin 80 ezer fölött

Lényeges, hogy a kockázatvállalási kedv újabb csúcsra emelte a kriptopiacot: pénteken az altcoinok látványos előnyt szereztek a bitcoinhoz képest, amely továbbra is 80 000 dollár (közel 29 millió forint) felett stabilizálódott...

MA 06:22

A Kraken anyavállalata az OCC-licencre hajt, szövetségi kriptobankká válna

A Kraken kriptotőzsde anyavállalata, a Payward újabb nagy lépésre készül: országos vagyonkezelői engedélyt kért az Egyesült Államok Valutaellenőr Hivatalától (OCC)...

MA 06:05

Történelmi események a mai napon (Május 9.)

Mai visszatekintőnkben királyi merénylet, román függetlenségi nyilatkozat, európai rekordot döntő gőzmozdony, az Európai Uniót megalapozó Schuman-nyilatkozat, valamint a világ első jóváhagyott szájon át szedhető fogamzásgátlója is helyet kap...

péntek 20:34

Az eltűnt tárhely nyomában: a Micron 245 TB-os adatközponti SSD-je

💻 Felmerül a kérdés, hogy hová tűnik a rengeteg adat, hiszen a legújabb Micron SSD-be már 245 TB-nyi adat fér el – nagyjából egy egész adatközpontnyi kapacitás egyetlen egységben...

péntek 20:24

A virágos növények kilenc drámai ugrása: megszülettek a reménykeltő szörnyek

A legújabb kutatások látványos összefüggéseket tárnak fel arról, miként formálták át a virágos növényeket a földtörténeti katasztrófák...

péntek 20:13

A 401 milliárd dolláros MI-infrastruktúra, amit a cégek nem hagyhatnak figyelmen kívül

💰 Az elmúlt két évben minden túlméretezett adatközpontot és elburjánzó IT-költségvetést csak egy dolog magyarázott: a GPU-őrület...

péntek 20:02

Az irányítás, nem a kapuőrködés: így teszi biztonságossá az SAP az MI‑kapcsolatokat

🔒 Ami először apróságnak tűnt, mára kulcskérdéssé vált: miként biztosítható a vállalati szoftverek megbízhatósága és biztonsága az MI-vezérelt ökoszisztémában?..

péntek 19:56

A gyenge gyorsjelentés után a Coinbase-t szabályozás és stabilcoinok menthetik meg?

Felmerül a kérdés, hogy a Coinbase képes lesz-e tartós növekedést felmutatni, vagy továbbra is a kriptopiac szeszélyeitől függ...

péntek 19:45

A stabilcoinok megkapták az engedélyt – most jön a feketeleves

A kriptopiac legizgalmasabb fejleménye az utóbbi időben, hogy a stabilcoinok már nem csupán digitális kuriózumnak számítanak, hanem a hagyományos pénzügyek világában is komoly szerepet kaptak...

péntek 19:35

A veszélyes CallPhantom-csalás 28 Google Play-alkalmazáson terjedt, milliókat érintve

Több mint hétmillió alkalommal töltöttek le olyan androidos alkalmazásokat a Google Play Áruházból, amelyek hamisan ígértek hozzáférést telefonhívásokhoz, SMS-ekhez és WhatsApp-üzenetekhez...

péntek 19:23

A Sony hezitál: RAM‑válság árnyékolja be a PS6 rajtját

💲 A játékostársadalmat aggasztja, mi lesz a következő generációs konzolok ára és megjelenési ideje...

péntek 19:12

Az Evercold majdnem felrúgta a Final Fantasy XIV 12 éves hagyományát

🌨 Érdekes felvetés, hogy a Final Fantasy 14 bővítményeinek nevei mindig összetett szavakból állnak, amire már több mint egy évtizede következetesen ügyel a Square Enix...

péntek 19:03

A hantavírus réme: utasokat figyelnek, Spanyolország irányított evakuálásra készül

😷 Tipikus eset, amikor egy békésnek ígérkező tengeri utazás egy csapásra világjárvány-veszéllyé változik...

péntek 18:56

Az XRP 1,40 dollár felé tart, de csökken az áttörés esélye

📈 Az XRP árfolyama közelít az 1,40 dolláros, vagyis bő 510 forintos szinthez, miközben az utóbbi időben a volatilitás látványosan visszaesett, a piac pedig egyre kisebb sávban kereskedik...

péntek 18:45

A Canvas-botrány: Rockstar-hackerek 280 millió iskolai felhasználó adatait lopták el

Érdemes megvizsgálni, hogy a világ egyik legnépszerűbb oktatási platformja, a Canvas, történetének talán legnagyobb adatlopásával szembesült...

péntek 18:34

A NEAR Protocol ralija vezeti feljebb a kriptopiacot

📈 Az elmúlt napokban pozitív fordulat következett be a kriptodevizák piacán, mivel a vezető szereplők jelentős emelkedést értek el...

péntek 18:23

A világ jelszavainak fele percek alatt feltörhető

A legtöbb jelszó alig jelent akadályt a hackereknek. Egy friss kutatás szerint világszerte majdnem minden második jelszót kevesebb mint egy perc alatt fel lehet törni...

péntek 17:23

A Revolutnál 2 centet mutatott a Bitcoin – kijelzési hiba

Fontos kérdés, mennyire megbízhatóak a kriptovaluta-alkalmazások valós piaci körülmények között. Ilyen eset például, amikor egy elterjedt pénzügyi appban egy hirtelen árfolyamesés villan fel a semmiből – legalábbis néhány felhasználó képernyőjén...

péntek 17:01

A Windows örök: 2026-ban is még a régi Win32 hajtja

💻 Rengetegen bosszankodnak Windows 11 alatt a régi, elavult párbeszédablakok láttán. Ezek a menük igencsak árulkodnak arról, hogy a rendszer mélyén sokkal idősebb kódrétegek lapulnak, mint gondolnánk...

péntek 16:34

Az olajdrágulás bedöntötte a bitcoin árfolyamát

💸 Érdemes megvizsgálni, hogy a bitcoin újabb zuhanását ismét a geopolitikai feszültségek okozták: az Egyesült Államok iráni légicsapásai az olaj árát átmenetileg hordónként 100 dollár (kb...

péntek 16:01

Az Instructure-hack súlyosbodik: feltörték a Canvas iskolai portálokat

A ShinyHunters hackercsoport újabb szintre emelte a támadását, amikor átmenetileg manipulálta csaknem 330 oktatási intézmény bejelentkezési oldalait...

péntek 15:58

A Honor MagicPad 4 csendben mindent kijavított: a legjobb középkategóriás Android tablet

🚀 Honor ismét nagyot alkotott a MagicPad 4-gyel, amely nem csupán az előző modell minden hibáját javította ki, hanem új szintre is emelte a középkategóriás Android tabletek mezőnyét...

péntek 15:45

Az Xbox a Project Helixről, következő konzoljáról még idén többet árul el

Az Xbox vezetője, Jason Ronald bejelentette, hogy még idén további részleteket árulnak el a Project Helix néven futó, következő generációs konzolról...

péntek 15:35

Az EU sarokba szorítja a Google-t: mi lesz a keresési adatainkkal?

🔍 Egy komoly konfliktus bontakozik ki a Google és az Európai Unió között a keresési adatok felett, amely alapjaiban forgathatja fel azt, ahogyan mindennap böngészünk a neten...

péntek 15:23

A tét nagy: az Amazon MI-ügynökei valódi pénzt mozgatnak

Felmerül a kérdés, mikor jön el az idő, amikor nem te intézed az online fizetéseket, hanem egy MI dönt, és a háttérben hajt végre minden tranzakciót...

péntek 15:13

Amerikai munkaerőpiaci lassulás felverheti a bitcoint — ha a béremelkedés nem hűt

📈 Érdemes megvizsgálni, hogy a pénteken érkező nem mezőgazdasági foglalkoztatottsági jelentés hogyan rázhatja meg a kriptopiacot...

péntek 15:01

A stabilcoin-kártyás költés évente megduplázódik – Rain vezetője szerint

💳 Az elmúlt évben robbanásszerűen nőtt a stabilcoin-alapú bankkártyák forgalma, a kártyás, stabilcoinnal történő vásárlások értéke több mint 105%-kal ugrott meg...

péntek 14:56

A hétköznapi hashajtó meglepően óvja a veséket

A krónikus vesebetegség világszerte százmilliókat érint, és gyakori oka a veseelégtelenségnek...