2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

péntek 21:57

Az MI-ügynökök végre biztonságosan kordában tarthatók?

🕵 Érdemes megvizsgálni, hogy az MI-ügynökök vállalati alkalmazásának egyik legnagyobb akadálya eddig az volt: miként adható meg számukra a szükséges mozgástér úgy, hogy közben ne veszélyeztessék a környező rendszereket...

péntek 21:46

Az amerikai MI-chip kiskapun át juthat a ByteDance-hez

A ByteDance gigantikus beruházást indít, hogy mégis hozzáférjen az NVIDIA B200-as csúcschipjeihez, amelyeket az Egyesült Államok korlátozottan exportál Kínába...

péntek 21:36

Az M5-ös MacBook Air: alig változott, mégis verhetetlen vétel

💻 Az Apple legújabb MacBook Air modellje, az M5-ös változat, első pillantásra csak szerény frissítésnek tűnik, de az apróbb fejlesztések az évek során összeadódnak...

péntek 21:23

A bosszantó PC-s shader‑várakozásnak végre vége lehet

Különösen igaz ez akkor, ha egy új PC-s játékot indítasz először: hosszú percek telnek el, mire a grafikai effektek végre optimalizálódnak a gépedhez...

péntek 21:12

Az Apple Arcade áprilisban három új játékkal hódít

Áprilisban igazán különleges játékválogatás érkezik az Apple Arcade-re: a kalandvágyók rémisztő vizeken hajózhatnak, a kikapcsolódás szerelmesei nyugalmas fejtörőkbe merülhetnek, míg a gyerekeket egy lakásban megtelepedő színes kis hernyó várja...

péntek 21:01

Az Amazon most durván emeli a Prime Video árát – örülünk?

Ez most kimondottan az a pillanat, amikor át kell gondolni: tényleg megéri még az Amazon Prime Video?..

péntek 20:56

A negatív fény kora: jönnek a láthatatlan üzenetek

A németországi atomreaktorok hőkamerás képei noha csak a felszínt mutatják, a tudomány most új szintre emeli a láthatatlan adatátvitelt...

péntek 20:46

Az élet VMware után: így őrizd meg adataid migrációkor

📦 A Broadcom 2023-as VMware-felvásárlása óriási átrendeződést indított el az IT-világában, és a hullámzás ma sem csitul...

péntek 20:34

Az új Spotify-láz: te döntöd el, mit hallgatsz!

Nem hiszem el, de mostantól nem a Spotify algoritmusa választja ki helyetted a kedvenc ütemeidet!..

péntek 20:13

Lehet az intersztelláris 3I/ATLAS üstökös az univerzum fosszíliája?

🚀 Egészen elképesztő felfedezés látott napvilágot: a 3I/ATLAS nevű intersztelláris üstökös akár 12 milliárd éves is lehet...

péntek 20:01

A Loblaw elleni kibertámadás az adathalászok aranybányája

Kanada legnagyobb kiskereskedelmi vállalata, a Loblaw kibertámadás áldozata lett, amely során a bűnözők az ügyfelek alapvető elérhetőségi adataihoz jutottak hozzá...

péntek 19:57

Az MI-ügynököknek soha nem volt ilyen létfontosságú a vektoros keresés

Különösen említést érdemel, hogy az MI-ügynökök térhódítása nemhogy megszüntette volna, hanem jelentősen felerősítette a vektoros keresés iránti igényt...

péntek 19:47

Az Nvidia új MI-szörnyetege: 7,2 ezermilliárd forintos nagy dobás

🔥 Egy lényeges szempont, hogy a karácsony előtti utolsó munkanapon óriási port kavart a technológiai világban egy jelentős üzletkötés: az Nvidia körülbelül 7,2 ezer milliárd forintért (20 milliárd dollárért) licencelte egy feltörekvő chipgyártó, a Groq technológiáját, miközben több kulcsembereket, köztük a vezérigazgatót is átcsábította...

péntek 19:34

Az új kibertámadókra világszerte lecsaptak a hatóságok

Ez a jelenség jól illusztrálható azzal, hogy a nemzetközi hatóságok egy friss, összehangolt akciója során 45 000 IP-címet és számtalan szervert vontak ki a forgalomból, amivel világszerte elkövetett kibercselekményeket akadályoztak meg...

péntek 19:23

A világ első kereskedelmi agyi implantátumát Kína jóváhagyta

Tipikus eset, amikor a tudományos áttörés nem a Szilícium-völgyből, hanem Kínából érkezik...

péntek 18:03

A kozmosz rejtett robbanásai: törpegalaxisban felbukkant neutroncsillag-ütközés

Egy rendkívül erős gamma-kitörést figyeltek meg, amely két összeolvadó neutroncsillagból származik – ráadásul ezek egy eddig ismeretlen minigalaxisban rejtőztek el, egy ősi kozmikus ütközés maradványaként...

péntek 17:56

Az első Uber-robotaxi megérkezett: Las Vegas utcáin gurul

Lényeges újdonság, hogy Las Vegasban mostantól elérhetők az Uber robotaxis fuvarok...

péntek 17:46

Mérgező vörös ásvány egy ukrajnai szkíta sírban

A Chervony Mayak nevű temetőben végzett régészeti ásatások során egy 1900 éves, kétszemélyes szkíta női sírban váratlan leletre bukkantak: mérgező, vörös színű cinóberdarabokra...

péntek 17:34

Az Apple nagy dobása: itt a MacBook Neo

Rózsaszín, kék, sárga – végre el se lehet téveszteni a MacBook Neót, ami 13 colos méretben és 600 ezer forintért kerül az Apple boltjaiba...

péntek 17:25

A rettegett péntek 13.: ezért jön ki mindig a matek

Tipikus eset, amikor egy dátum köré épülő félelem végigsöpör a világon, pedig minden babona mögött tiszta matematikai törvényszerűség áll...

péntek 17:02

Az MI forradalma: most éri meg igazán szoftveriparba lépni

A szoftvervilág történetének egyik legizgalmasabb korszakában élünk: már nemcsak álom, hogy percek alatt térképezzen fel és újítson meg évtizedes, kritikus rendszereket egy MI-algoritmus...

péntek 16:56

Az idei tél forrón robbant be Amerikában

🔥 Erre utal többek között az, hogy az Egyesült Államokban idén egyik államban sem dőlt meg hidegrekord a tél folyamán, miközben kilenc államban rekordmeleg uralkodott december és február között...

péntek 16:45

A PDF királya távozik: lemond az Adobe vezére 18 év után

Erre utal többek között, hogy Shantanu Narayen, az Adobe vezérigazgatója váratlanul bejelentette távozását, miután 18 évig irányította a világhírű szoftvervállalatot...

péntek 16:35

Az MI nem könnyít, inkább még fárasztóbbá teszi a munkát

Érdekes felvetés, hogy a mesterséges intelligencia (MI) egyre inkább teret nyer a munkahelyeken, mégsem tapasztalnak könnyebbséget az alkalmazottak a mindennapos feladatokban...

péntek 16:24

Az égi rejtély: elkóborolt fekete lyuk, vagy különös galaxis?

Külön említést érdemel, hogy a csillagászok egy furcsa fénycsíkra bukkantak az univerzumban, amelynek magyarázata évek óta viták és kutatások tárgya...

péntek 13:57

Az Apple MacBook Neo átírja az olcsó laptopok szabályait

💻 Amikor az Apple bemutatta a MacBook Neót, szinte minden nagy PC-gyártó meglepetten kapta fel a fejét...

péntek 13:45

Az angol gyeplabda válságban: 129 GB-nyi adat forog kockán

🚩 Anglia gyeplabda-szövetségét súlyos kibertámadás érte, miután egy hackercsoport – AiLock néven – magára vállalta adataik ellopását, és bejelentette közzétételének szándékát...

péntek 13:37

A MacBook Air M5 rekordgyors – de tényleg erre vártunk?

🚀 Elképesztő, hogy immár négy év telt el azóta, hogy az Apple kívül-belül teljesen újragondolta a MacBook Airt...

péntek 13:24

A mindent vivő π-képlet

Több mint kétezer éve matematikusok generációi próbálnak minél gyorsabban és pontosabban kiszámolni a pi (π) értékét, így az évezredek alatt képletek ezrei születtek...