2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 18:23

A Terra-botrány fordulata: a Jane Street ellentámad

Az egyik legnagyobb Wall Street-i kereskedőcég, a Jane Street azt kérte az amerikai bíróságtól, utasítsa el a Terraform Labs csődvagyonának keresetét...

MA 16:13

Az olcsó 8 GB-os kártyák utolérhetik a 16 GB-os csúcsokat?

📈 Megvizsgáltam, mennyire lehet tuningolással felzárkóztatni a középkategóriás, 8 GB memóriás Nvidia- és AMD-videokártyákat a drágább, 16 GB-os változatok teljesítményéhez...

MA 16:02

Az EA nem csinálja, ezért egy indie nekiáll a Titanfall 3-nak

A Titanfall-sorozat minden idők egyik legkedveltebb FPS-élménye, amely érthetetlen módon a süllyesztőbe került, amikor az EA a Titanfall 2-t két nagy riválissal, a Battlefield 1-gyel és a Call of Duty: Infinite Warfare-rel egy időben dobta piacra...

MA 15:57

Az indiánok rejtett őse: szenzációs felfedezés az ősi DNS-ben

Az utóbbi évek egyik legjelentősebb genetikai kutatásában sikerült majdnem kétszáz dél- és közép-amerikai őslakos ember genomját feltérképezni, egészen új képet adva Amerika benépesítésének rejtélyes múltjáról...

MA 15:46

Az amerikaiak titkos gombaláza: depresszió, remény és varázsgombák

Megemlíthető továbbá, hogy az elmúlt években az úgynevezett varázsgombák, vagyis a pszilocibint tartalmazó gombák iránti érdeklődés az Egyesült Államokban minden eddiginél nagyobb lett...

MA 15:34

Az MI-forradalmat is túléli az iPhone: az Apple aduásza marad

📱 Az utóbbi időben sokan vitatják, hogy vajon képes lesz-e az Apple megőrizni vezető szerepét a mobilpiacon az MI rohamos fejlődése mellett...

MA 15:23

Az SSD-k drágulnak, elszálltak a processzorárak

Egyre biztosabbnak tűnik, hogy jóval mélyebben kell a pénztárcánkba nyúlni, ha új SSD-t vagy processzort szeretnénk venni...

MA 15:12

A bitcoin és a dollár most döbbenetesen tükörképei egymásnak

Érdemes megvizsgálni, hogy a bitcoin és az amerikai dollár közötti kapcsolat sosem volt ennyire szélsőséges, mint mostanában...

MA 15:03

A május égi csodái: felszerelések, tippek, kihagyhatatlan élmények

🌙 Májusban is számos látványosság vár az égbolton mindazokra, akik szeretnék felfedezni a csillagászat rejtelmeit...

MA 14:57

A fedélzeti kamerák királya: a Vantrue Pilot 2 mindent visz

A modern navigációs, szórakoztató és biztonsági funkciók egyetlen csomagban érkeznek – legalábbis ezt ígéri a Vantrue Pilot 2 menetrögzítő kamera...

MA 14:45

Az új kihívó lenyomta az árakat: olcsóbb a Disney+

💲 Fontos kérdés, hogy miért csökkent hirtelen a Disney+ ára az Egyesült Királyságban...

MA 14:34

A bitcoin megtorpan, de 29 millió felett még mindig sztár

Az elmúlt napokban a bitcoin árfolyama néhány ezer dolláros sávban mozgott, 77 500 és 78 500 dollár között ragadt, miután szerdán meghiúsult a 80 000 dolláros áttörés...

MA 14:23

Az Intel visszatér a csúcsra: jön az MI-áttörés

🚀 Felmerül a kérdés, hogy mi történt az Intellel az elmúlt egy évben...

MA 14:01

Elárulják a háttérképek a Pixel 11 Pro Fold új színeit?

A legújabb Android 17 bétaverzió frissítésében váratlan dolog történt: a Google véletlenül közzétette a következő Pixel 11 Pro Fold háttérképei előnézeteit és leírásait...

MA 13:56

Az eltűnt profit nyomában: mit nyelnek el a vállalati silók?

🔍 Ami elsőre egyértelműnek tűnt, valójában bonyolultabb volt: sok vállalatvezető úgy gondolja, teljesen átlátja cége folyamatait és pénzügyi adatait, de az egyes részlegek közötti „fekete lyukakban” értékes lehetőségek rejtőznek...

MA 13:45

Az ősi dinoszaurusznyomok újraírják Dél-Afrika történelmét

Erre utal többek között, hogy a világ egyik leggazdagabb ősélőlény-lelőhelyének számító Dél-Afrikában korábban kimondottan kevés bizonyítékot találtak a dinoszauruszok késői jelenlétére – egészen mostanáig...

MA 13:33

Az amerikai állam most tényleg nagyot kaszál az Intelből

💸 Na most kapaszkodj, mert az Intel elképesztő, több mint 22%-os árfolyam-emelkedésével az Egyesült Államok kormánya jelenleg közel 26,5 milliárd dollár (kb...

MA 13:12

Az új digitális rúpia átírja India szociális támogatásait

Ilyen eset, amikor egy ország a szociális támogatási rendszert használja ugródeszkaként egy új digitális pénz bevezetéséhez...

MA 13:01

A kriptotél véget ért? Szakértők és állami pálfordulások

Megvizsgálandó, hogy tényleg magunk mögött hagytuk-e a bitcoin árfolyamzuhanásának időszakát, vagy csak egy újabb fordulatot élünk meg a kriptopiac hullámvasútján...

MA 12:56

Az új őrület a Crimson Desertben: madarak szelídítése háziállatnak

🐕 A Crimson Desert legfrissebb frissítése alaposan felbolygatta az eddigi háziállat-rendszert: végre itt vannak a madarak!..

MA 12:46

A nagy dobás: az Ubuntu‑modell tarol a Framework laptopokon

A Framework új laptopja iránti kereslet minden előzetes várakozást felülmúl. A vállalat már hat szállítmányt is eladott a vadonatúj, moduláris és könnyen bővíthető készülékből, amelyet egyre többen választanak – ráadásul a többség az Ubuntuval előtelepített változatot preferálja, nem a Windowsosat...

MA 12:23

Az Assassin’s Creed IV: Fekete Zászló Resynced hasít PS5 Prón

Végre leleplezték a 2013-as Assassin’s Creed IV: Fekete Zászló (Assassin’s Creed IV: Black Flag) remake-jét, amely lenyűgöző technikai ugrást hoz a jelenlegi konzolgeneráció számára...

MA 11:12

Az ősi argentin kígyó, amely lábakkal írja újra az evolúciót

🐍 Egy közel 100 millió éves, kivételesen épen maradt argentínai fosszília segít új fényt vetni a kígyók fejlődésének korai szakaszaira...

MA 11:01

A Metaplanet újabb húzása: 18 milliárd forintból venne bitcoint

💰 A tokiói Metaplanet újabb fordulatra készült: 8 milliárd jent, vagyis közel 18 milliárd forintot gyűjtött össze nulla százalékos kamatozású kötvénykibocsátással, azzal a céllal, hogy tovább növelje bitcoinvagyonát...

MA 10:57

A Menkauré-piramisban rejtett üregek titkos bejáratra utalhatnak

Évek óta foglalkoztatja a kutatókat, létezik-e titkos bejárat a Gízában található Menkauré-piramis keleti oldalán...

MA 10:36

Az ősi kór nyomában: egy elfeledett város pusztulása

Másfél évezreddel ezelőtt rejtélyes betegséghullám sújtotta a mai Jordánia területén álló Jerash városát...

MA 10:30

A brit humorú zombiszimulátor, ahol a kenyér is penészes

🧅 Jellemző példa erre, hogy ha azt gondolnánk, egy istenjáték békés falusi idillje csak gombaszedésből és szendvicsgyártásból áll, a Masters of Albion ezt alaposan megcáfolja...

MA 10:23

Az új pénzcsap: a Morgan Stanley rárepül a stabilcoinokra

💰 A pénzügyi világ óriása, a Morgan Stanley egyre markánsabban veti meg a lábát a digitális eszközök piacán...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/24

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Milky Way: Cosmic Playground (iPhone/iPad)A Milky Way egy kivételes, fizika alapú űrszimulátor, amely az univerzum felfedezésének élményét kínálja...