2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 18:02

Az emberi agysejtek már Doomot játszanak egyetlen chipen

Jellemző példa erre, hogy most már nemcsak szilíciumlapkák, hanem élő emberi sejtcsomók is képesek klasszikus videojátékokat játszani...

MA 17:59

Az élet nyomai a Marson? Óriási szerves láncokra bukkantak

🚀 Több évnyi kutatómunka és a legújabb NASA-eredmények alapján egyre több adat utal arra, hogy a Mars felszínéről származó kőzetekben talált rendkívüli szerves vegyületeket élőlények hozhatták létre...

MA 17:40

Az első fekete űrhajós és az első nő a Holdra készülnek

A NASA több mint ötven év után ismét a Holdhoz készül visszatérni, és ezúttal történelmet ír: a következő Artemis II-küldetésen először utazik fekete és női űrhajós is a Holdhoz...

MA 17:21

Az amerikai államok háborúja az ingyenes oltásokért

Azt vizsgáljuk, hogy az Egyesült Államok szövetségi védőoltási javaslatainak átalakítása után miként próbálják az egyes államok megőrizni a gyerekek számára az ingyenes és könnyen hozzáférhető oltásokat...

MA 17:02

Az óriások harca: újabb milliárdok ömlenek az OpenAI-ba

🤖 Az OpenAI pénteken bejelentette, hogy óriási, 110 milliárd dolláros befektetés érkezik az Amazon, az Nvidia és a SoftBank részéről, miközben a cég értékét már 730 milliárd dollárra teszik...

MA 16:59

Vége az USB‑C gyorstöltés rémálmának: a Xiaomi 17 Ultra megmutatta, hogyan kell

🔋 Fontos kérdés, hogy egyre több készüléket és gyorstöltőt párosítva meddig kell még bosszankodnunk amiatt, hogy az USB-C-vel is gyakran káoszba fullad az élmény: a különféle gyorstöltési szabványok, a gyártói protokollok meg a hosszú távú akkumulátor-élettartam miatt csak kevesen oldották meg tényleg jól a problémát...

MA 16:39

Az égbolt leggyorsabb hírnöke érkezik: milliós riasztások a Rubin Obszervatóriumtól

Február 24-én új korszak indult a csillagászatban, amikor az amerikai Vera C...

MA 16:21

Az észak-koreai hekkerek az amerikai kórházakat és iskolákat veszik célba

Amerikai egészségügyi és oktatási intézmények ellen indítottak támadásokat az elmúlt hónapokban olyan digitális behatolók, akik feltételezhetően Észak-Koreához köthetők...

MA 14:01

Az élet nyomában: új villámjelenségeket találtak a Marson

🚀 A Földön kívüli villámok létezése már nem újdonság, hiszen a csillagászok korábban is észleltek villámlást a Jupiteren, a Szaturnuszon és a Neptunuszon...

MA 13:59

Az öt kihagyhatatlan app az új Galaxy S26 Ultrára

📱 A Samsung Galaxy S26 Ultra új szintre emeli a felhasználói élményt lenyűgöző, 17,5 cm-es kijelzőjével és mellékelt S Pen tollával...

MA 13:39

A Paramount bekebelezi a Warner Bros. Discoveryt – új médiagigász születik

🎥 Minden idők egyik legnagyobb médiafúziója jöhet létre, miután hivatalossá vált, hogy a Paramount több mint 40 ezer milliárd forint (110 milliárd USD) értékben felvásárolja a Warner Bros...

MA 13:21

Az új motorakku öt perc alatt feltölt – tényleg?

⚡ A motoros világ figyelme a Donut Labra irányult, miután bemutatták első gyártásérett szilárdtest-akkumulátorukat, amely a jelenlegi ismereteink szerint döbbenetesen gyors töltést tesz lehetővé...

MA 12:01

Az új Tenways városi e-bike tényleg megkönnyíti a közös tekerést

🚲 Néha rájössz, hogy egy jó elektromos bringa többet ér, mint egy akármilyen együtt töltött vasárnap...

MA 11:58

A Windows 11 frissítés, ami végre megszelídíti a batch fájlokat

A legutóbbi Windows 11 Insider Preview frissítések most komoly lendületet adnak a batch fájlok és CMD-szkriptek futtatásának biztonságában és sebességében...

MA 11:40

Az első napfoltmentes napok: nyugalom, vagy csak vihar előtti csend?

Több évnyi aktív naptevékenység után február 22-én először fordult elő, hogy egyetlen napfolt sem volt látható a Föld felé néző napkorongon...

MA 11:21

Az utolsó nagy próba: Jön az MI történelmi fordulópontja?

Érdemes megvizsgálni, hol húzzuk meg a határt az emberi tudás és a modern MI-modellek képességei között...

MA 11:01

Az Egyesült Államokban újra tombol a kanyaró

🦠 Érdekesség, hogy 2026 első két hónapjában az Egyesült Államokban már 1 136 kanyarós megbetegedést regisztráltak, ami a tavalyihoz képest jóval gyorsabb terjedést jelez...

MA 10:55

A hadseregből száműzi az MI-t Trump: Palantir marad, Anthropic bukik

Az amerikai védelmi minisztérium egyre keményebb tempóban keresi a legerősebb MI-technológiákat: a verseny a csúcsra pörgött, a tét óriási...

MA 10:47

Az MI elhozza a nagy leépítést: Jack Dorsey szerint vége a munkáknak

Jack Dorsey, a Block (korábban Square) alapítója nem kertelt: szerinte eljött az az idő, amikor a mesterséges intelligencia már valóban az emberek munkáját veszi át...

MA 10:37

Az eltűnt hold átírhatta a Szaturnusz múltját

A Titan, a Szaturnusz legnagyobb holdja, eredetileg két ősi hold gigantikus ütközéséből születhetett, amely nemcsak a teljes holdrendszert formálta át, hanem közvetve a Szaturnusz ikonikus gyűrűinek születésére is hatással lehetett...

MA 10:28

Az űrben lebeg egy agy? Nézd meg, mit fotózott a JWST!

Elképesztő fotók érkeztek a James Webb-űrtávcsőtől: a Vela csillagképben, tőlünk nagyjából 2 300 000 000 000 000 000 km-re (azaz 5 000 fényévre) a PMR 1 nevű köd úgy néz ki, mintha egy átlátszó koponyában villámok járnák át az agytekervényeket...

MA 10:20

A Google 100 órás akkumulátora forradalmasítja az energiatárolást

Érdemes megvizsgálni, milyen új korszakot nyithat meg a Google legújabb beruházása Minnesota államban, ahol egy adatközpontot épít, amelyet szinte kizárólag tiszta energiával látnak el...

MA 10:02

Az unalmas, drága PC-k és mobilok kora 2026-ban kezdődik

Az okostelefonok és számítógépek világa komoly átalakulás előtt áll: a várakozások szerint a készülékek kevesebb memóriával, szerényebb képességekkel, mégis jóval magasabb áron érkeznek majd 2026-ban...

MA 09:56

Az OpenAI beszáll a hadügybe: MI-rendszerek a Pentagonban

Az MI fejlesztésében az utóbbi időben egyre élesebb a verseny, de most újabb fordulóponthoz érkeztünk: az OpenAI megállapodott az amerikai védelmi minisztériummal, hogy saját MI-modelleit az ügynökség rendszereibe telepítik...

MA 09:46

Az életed tíz képpel jobb lehet: a Gemini turbóra kapcsolja a megosztást

📷 Mostantól fájdalommentes a képek és videók importja: a Gemini alkalmazás legújabb, 1...

MA 09:29

A RESURGE, az Ivanti eszközök láthatatlan kártevője – mire képes?

Ilyen eset például, amikor egy szervezet hálózatát észrevétlenül fertőzi meg egy rendkívül fejlett kártevő...

MA 09:19

Az égbolt ritka csodája: hat bolygó egyszerre sorakozik fel

Különleges látvány várja a csillagászat rajongóit a hétvégén, amikor hat bolygó, mint gyöngyszemek, egymás után sorakoznak fel az esti égbolton...

MA 09:11

Az OpenAI és az Amazon új korszakot nyit a vállalati MI-ben

Az MI világában új nagyhatalmi játszma bontakozik ki: a SoftBank 8 500 milliárd, az Nvidia 8 500 milliárd, az Amazon pedig 14 100 milliárd forintot fektet az OpenAI-ba...

MA 09:02

Az Europol lecsapott Európa legrettegettebb tinédzser hackereire

🕵 Egy nagyszabású, egy évig tartó nyomozás végén harminc embert letartóztattak, 179 gyanúsítottat pedig összefüggésbe hoztak a The Com nevű online bűnözői csoporttal, amely gyerekek és tinédzserek ellen irányuló zsarolásban, erőszakos cselekményekben és gyermekpornográfia előállításában vett részt...