2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 09:29

A tojás akár 27%-kal csökkentheti az Alzheimer-kór kockázatát

Érdemes megvizsgálni, hogy milyen tényezők hatnak az időskori agyműködésre, és miként lehet a demencia kialakulását megelőzni...

MA 09:16

A NASA Curiosityja robotkarján ragadt marsi kővel egy hétig küzdött

Tipikus eset, amikor egy látszólag egyszerű feladat váratlanul komoly akadállyá válik: a NASA Curiosity marsjárója egy egész héten át küzdött, hogy megszabaduljon egy makacs kőtől, amely a robotkar végére szorult...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 5/8

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Voxaro (iPhone/iPad)A Voxaro egy innovatív alkalmazás, amely valós időben alakítja át a beszédet jól szerkesztett, tiszta szöveggé...

MA 09:08

Az MI-ügynökök megoldhatják a kripto felhasználói gondjait?

💻 A kriptovilágban régóta visszatérő probléma, hogy a digitális pénztárcák és a stabilcoinok használata sokak számára még mindig nehézkes, és csak kevesen találták meg bennük a mindennapi pénzügyi élet valódi értelmét...

MA 09:02

Az univerzális Apple Watch-kábel, amit felesleges kütyünek hittem, utazáskor nélkülözhetetlen

🚀 A hosszú évek alatt megszokott útitársaim közé tartoznak a különböző töltők és kábelek, hiszen repülős üzleti utakra vagy akár néhány órás autózásokra mindig vinnem kell minden eszközöm töltőjét...

MA 08:57

Az újabb amerikai–iráni feszültség padlóra küldte a Bitcoint

💸 A kriptovaluták piacán ismét erős hullámzás tapasztalható: a Bitcoin árfolyama gyorsan visszaesett a 29,5 millió forint (79 000 dollár) körüli szintre, miután az Egyesült Államok csapást mért iráni célpontokra...

MA 08:50

Az ausztrálok hajnali háromkor csaphatnak le a Steam Controllerre

Erre utal például az, hogy az új Steam Controller pillanatok alatt elfogyott Ausztráliában, a keddi megjelenését követően...

MA 08:36

A következő stabilcoin-boomot a nagyvállalatok és az MI-ügynökök vezetik

🥇 A stabilcoinok világa teljesen új korszakba lép: multinacionális cégek egyre szélesebb körben használják határokon átnyúló pénzmozgásokhoz, miközben a mesterséges intelligenciával működő ügynökök is önálló kifizetéseket hajtanak végre a blokkláncon...

MA 08:29

A Kobo új, bohókás tokjai gyönyörűek, de hol az új hardver?

A 2026-os New York-i BookCon rendezvényen mutatta be a Kobo legújabb limitált szériás tokjait, amelyek színes és játékos dizájnnal hívják fel magukra a figyelmet...

MA 08:08

A Sakana 7B-je vezényli a GPT-5-öt, Claude-ot és Geminit

💻 A Sakana AI kutatói áttörő megközelítéssel új alapokra helyezték az MI-modellek együttműködését...

MA 08:02

Az új MI három évvel előbb azonosítja a hasnyálmirigyrákot, mint az orvosok

🧠 Fontos kérdés, hogy a hasnyálmirigyrákot mikor sikerül felfedezni, hiszen ez életet menthet...

MA 07:57

Az amerikaiaknak globális kriptólikviditást hozna a Binance.US újjáélesztése

💰 Fontos kérdés, hogy mikor férhetnek hozzá ismét az amerikai felhasználók a globális kriptovaluta-piac legjobb áraihoz...

MA 07:43

Az on-chain adatvédelem és elszámoltathatóság kéz a kézben járhatnak

🔑 A blokklánc-technológia világa egyszerre kínál teljes átláthatóságot és kihívásokat a felhasználói magánélet területén...

MA 07:37

Az MI új korszaka: a ZAYA1-8B, a takarékos áttörés

⚡ Ebből következően érdemes megérteni, hogy a mesterséges intelligencia világában az óriási, egyre nagyobb modellek mellett egyre nagyobb figyelmet kapnak azok a fejlesztések, amelyek a kisebb, hatékonyabb és széles körben elérhető megoldásokra építenek...

MA 07:28

A brazil fa lehet a COVID–19 elleni új csodafegyver

🌱 brazil kutatók egy őshonos fa leveléből származó természetes vegyületeket azonosítottak, amelyek több fronton támadják a COVID–19-et okozó vírust...

MA 07:22

A bíróságon csap össze Taylor Swift és a vegasi showgirl

💪 Taylor Swift újra bíróság előtt találja magát, ezúttal egy Las Vegas-i revütáncosnő miatt, aki azt állítja, hogy az énekesnő ellopta az Egy showgirl vallomásai (Confessions of a Showgirl) márkát...

MA 07:01

Az önvezető teherautó, amely sofőr és fülke nélkül megdöbbentette a fuvarozóipart

Egy kaliforniai start-up, a Humble Robotics mutatta be a Humble Haulert, amely minden eddigi elképzelést felülmúl azzal, hogy teljesen vezetőfülke nélkül képes szállítani árut...

MA 06:57

Az abszurd GameStop–eBay történet: a vezért eBay-ezésért tiltották ki, majd visszaengedték

A GameStop vezérigazgatója, Ryan Cohen egészen szokatlan fordulatokat produkált, amikor eBay-felvásárlási tervei kapcsán bizarr akcióba kezdett: játékosokat célzó relikviákat és sportritkaságokat kezdett el árulni az eBay-en – állítólag azért, hogy finanszírozza magát a felvásárlást...

MA 06:50

A Coinbax 20 ezer dollárt kaszált a Consensus Miami PitchFesten stablecoin-megfelelésért

A Consensus Miami konferencián a Coinbax zsebelte be a 7,2 millió forintos fődíjat, miután bemutatta azt a szoftvert, amely jelentősen egyszerűsítheti a stabilcoin-tranzakciók megfelelőségi ellenőrzését...

MA 06:43

A kriptolassulás odacsap: elmaradt Q1 után 5%-ot zuhan a Coinbase

A friss pénzügyi jelentés komoly csalódást okozott a befektetőknek: a Coinbase váratlan veszteséget szenvedett el az első negyedévben, és elmaradt a bevételi várakozásoktól is...

MA 06:36

Miért nem forog a Webb által felfedezett óriásgalaxis?

A James Webb-űrtávcső friss megfigyelései minden előzetes várakozást felülírnak: a távoli XMM-VID1-2075 galaxis a világegyetem kezdeti korszakából származik, ám egészen meglepő módon nem mutat semmiféle forgásra utaló nyomot...

MA 06:30

Az Anthropic újítása: álmodó MI-ügynökök, akik hibáikból tanulnak

San Franciscóban zajló második Anthropic-konferencián látványos eredményekkel mutatkozott be a Claude platform legnagyszabásúbb frissítése, amelynek középpontjában egy új, „álmodás” (dreaming) nevű fejlesztés áll...

MA 06:22

A lehetetlen bolygópár, amely mégis létezik

A Tejútrendszer egyik távoli pontján, mintegy 190 fényévre a Földtől, kutatók egy különleges bolygópárosra bukkantak...

MA 06:06

Történelmi események a mai napon (Május 8.)

Ma olyan nap, amikor fordult a történelem kereke: Jeanne d’Arc áttörte Orléans ostromát, véget ért az európai háborúskodás a V-E Day napján, és az Egészségügyi Világszervezet megerősítette a himlő felszámolását...

csütörtök 21:58

A Forza Horizon 6 eddig megerősített autófelhozatala – íme!

🚗 Idén ősszel minden eddiginél nagyobb durranásnak ígérkezik a Forza Horizon 6, amelyben ezúttal Japán vadregényes vidékein, városaiban, hegyeiben és tengerpartjain száguldozhatunk, méghozzá a valaha volt legnagyobb választékkal...

csütörtök 21:46

A Yakuza-sorozat eredettörténete: ilyen lesz a Stranger Than Heaven

🗿 Az RGG Studio legújabb játéka, a Különösebb a mennyországnál (Stranger Than Heaven) a 20...

csütörtök 21:34

A kontextus nélkül könnyen összeomlik az MI – így orvosolható

Ilyen eset például, amikor a vállalat abban reménykedik, hogy a legmodernebb MI-modell végre áttörést hoz: precíz, személyre szabott eredményeket vár tőle – de ehelyett egységes, sablonos vagy akár teljesen irreleváns válaszokat kap...

csütörtök 21:01

Az XRP 1,42 dollár alá csúszott: kitörést lesnek a kereskedők

Miután több napon át próbált 1,45 USD (kb. 535 HUF) felett maradni, az XRP elbukott, és hirtelen, 25%-os visszaeséssel 1,42 USD (kb...

csütörtök 20:57

Az iráni hekkerek zsarolóvírus-kampánnyal adatokat lopnak a Microsoft Teamsen

Érdekes fejlemény, hogy államilag támogatott iráni hekkerek egyre kifinomultabb módszerekkel támadnak, és közben mindent megtesznek azért, hogy álcázzák valódi szándékaikat...