2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 15:19

Az MI újabb 4 500 állást tüntet el a Dow Chemicalnél

📈 A Dow Chemical, a világ egyik legrégebbi vegyipari cége, 4 500 dolgozótól – vagyis a munkaerő 12,5 százalékától – válik meg egy átfogó átalakítás részeként, amelynek középpontjában az MI-alapú automatizálás áll...

MA 15:01

Az MI csodafegyvere: kevesebb agresszív mellrák, nagyobb túlélési esélyek

Egy nagyszabású svéd kutatásban több mint 100 ezer nő mammográfiás vizsgálatát elemezték, és kimutatták, hogy az MI támogatásával a radiológusok hatékonyabban szűrik ki az agresszív mellrákot...

MA 14:55

Az új Windows 11-frissítés után megint jöhet a kék halál

A legutóbbi Windows 11-frissítések után sokan szembesültek azzal, hogy számítógépük nem indul el, helyette csak egy kék képernyő (BSOD) jelenik meg az “UNMOUNTABLE_BOOT_VOLUME” hibakóddal...

MA 14:37

A hosszú élet titka: tényleg a génjeinkben van?

🧠 Friss kutatások szerint a génjeink jóval nagyobb szerepet játszanak a várható élettartamunkban, mint eddig hittük...

MA 14:02

A James Webb-űrtávcső rábukkant az eddigi legősibb galaxisra

Jellemző példa erre: a James Webb Űrteleszkóp újabb rekordot döntött: sikerült megfigyelni a világegyetem eddig ismert legrégebbi galaxisát, a MoM-z14-et...

MA 13:56

A Starbucks visszatér az egyszerűséghez – itt az új csoda

☕ A Starbucks remek formában van, köszönhetően Brian Niccol vezérigazgatónak, aki két év után először tudott növekedést felmutatni...

MA 13:37

Az új MI-hullám: a Google Genie felforgathatja a játékipart

A Google új MI-prototípusa, a Project Genie már most fenyegetést jelent a videojáték-fejlesztők számára...

MA 13:19

Az MI miatt hadat üzentek a kiadók az Internet Archive-nak

📚 A kiadók egyre nagyobb számban blokkolják az Internet Archive-ot, attól tartva, hogy az MI-botjai az archívum segítségével mégis hozzáférhetnek a tartalmaikhoz, és le is menthetik azokat...

MA 13:02

Az új nagyhatalmi sakkjátszma: a vezetők Pekingben keresik az irányt

🎲 Egy lényeges szempont, hogy idén januárban már legalább öt ország vezetője utazott Pekingbe, hogy találkozzon Hszi Csin-ping kínai elnökkel, miközben egyre feszültebbé váltak a kapcsolatok az Egyesült Államokkal...

MA 12:55

A vak bizalom az MI-ben megbénítja a cégeket

👀 Az európai cégek egyre többet költenek MI-re, de hiányzik az igazi bizalom és a kellő hozzáértés...

MA 12:39

A portlandi netforradalom nyertesei: a legjobb szolgáltatók

Érdemes tudni, hogy Portlandben rengeteg különböző internetcsomag közül lehet választani, legyen szó gyorsaságról, ár-érték arányról vagy csak a legalapvetőbb szolgáltatásokról...

MA 12:19

Az IPIDEA-botrány: fertőzött appokból épült fel a kiberbűnözők birodalma

🕵 Az IPIDEA, az egyik legnagyobb lakossági proxyhálózat, súlyos csapást kapott a Google fenyegetésfelderítő csapatának és partnereinek köszönhetően...

MA 12:01

Az önvezető taxik már a San Franciscó-i reptéren várnak

Jönnek a robotaxik San Franciscóba: a Waymo önvezető autói már a város nemzetközi repülőterén is szolgálatba álltak...

MA 11:56

A hackerek már kihasználják az Ivanti EPMM kritikus sebezhetőségeit

Nehéz elhinni, de két súlyos sebezhetőség is napvilágra került az Ivanti Endpoint Manager Mobile (EPMM) eszközében, amelyeket már aktívan ki is használtak ismeretlen támadók...

MA 11:37

Az El Niño rekordtempóban olvasztja az orosz sarkvidék tengeri jegét

🌨 A tudósok felfedezték azt a fordulópontot, amikor az El Niño északi-sarki tengeri jég olvadására gyakorolt hatása hirtelen felerősödött...

MA 10:57

A Google végre engedné az MI-összefoglalók tiltását?

A Google azt fontolgatja, hogy engedélyezi a weboldaltulajdonosoknak, hogy letiltsák tartalmuk felhasználását az MI-alapú keresési összefoglalókban...

MA 10:49

Az MI ezerszer gyorsabban megfejti a természet rejtett mintázatait

A rend soha nem tökéletes, és ezek az apró tökéletlenségek gyakran kulcsfontosságúak lehetnek...

MA 10:41

A végtelen repülés kora: lézerrel töltik a drónokat menet közben

🛫 Képzeld el, hogy a drónok soha nem merülnének le, mert repülés közben is tölthetnék az akkumulátorukat – ez most valósággá válhat...

MA 10:34

Az internet új kedvence: tombol a Moltbot-őrület

Egy nyílt forráskódú MI-asszisztens, a Clawdbot, népszerűsége robbanásszerűen nőtt, majd egy villámgyors névváltás után Moltbotként vonult be a köztudatba – káoszt, csalásokat és hamis kriptovalutákat hagyva maga után...

MA 10:27

Az MI-ügynökök térhódítása: láthatatlan fenyegetés a vállalati rendszerekben

🕸 Az MI az elmúlt években viharos gyorsasággal terjedt el a vállalati szektorban...

MA 10:17

Az elveszett Windows-bizalom: a Microsoft nagy visszahódításra készül

A Windows 40 éves története során számos hullámvölgyet átélt, de a Windows 11 most egészen új kihívások elé állítja a felhasználókat...

MA 10:05

A segítőből zaklató: mikor fordult ellenünk a szoftver?

Tipikus eset, amikor egy technológiai vívmány pont az ellenkező hatást váltja ki, mint amit várnánk tőle...

MA 09:58

A zabpehely már két nap alatt leviszi a koleszterint

Egy rövid távú, zabpehely-alapú diéta meglepően hatékonynak bizonyult a koleszterinszint csökkentésében...

MA 09:49

Betörtek az önvezető taxik az SFO-ra – egyelőre korlátozottan

Több mint három évnyi huzavona után végre elindulnak a Waymo utasszállító járatai a San Franciscó-i nemzetközi repülőtéren...

MA 09:43

Az MI elárasztja a tudományt: közeleg a Prism-vihar?

💥 Felmerül a kérdés, hogy meddig marad hiteles a tudományos publikálás, ha a mesterséges intelligencia (MI) egyre könnyebbé és gyorsabbá teszi a tudományos cikkek írását, miközben a szakmaiság sérülhet...

MA 09:33

Az App Store kulisszatitkai: letöltés, elbírálás, siker

💻 Az App Store a legegyszerűbb módja annak, hogy iPhone, iPad, Mac, Apple TV vagy Apple Watch készülékekre alkalmazásokat fedezz fel, vásárolj meg és tölts le...

MA 09:25

Az Apple 700 milliárd forintért bekebelezte a gondolatolvasó MI-céget

Az Apple 2 milliárd dollárért, vagyis több mint 700 milliárd forintért vásárolta fel a Q...

MA 09:17

Az Elon-univerzum összeolvad? Egyesülhet a SpaceX, a Tesla és az xAI

Elon Musk cégei újabb fordulat előtt állnak: a SpaceX-et egyesíthetik a Teslával vagy az xAI-val...

MA 09:11

Az Amazon milliárdokat éget – csúfos tőzsdenyitás jöhet?

💸 Erre utal többek között az is, hogy az Amazon MGM új dokumentumfilmje, a Melania (Melania), a hatalmas reklámkampány ellenére sem várható, hogy rekordokat dönt a mozikban ezen a hétvégén...