MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
filózó
Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?
Egy spanyol kisvárosban, Berlanga de Duero-ban, véletlen leletként bukkantak rá egy törött bronzkupára, amely valószínűleg egy római katona emlékét őrzi 1900 évvel ezelőttről...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Waltz of the Wizard (iPhone/iPad)A Waltz of the Wizard egy első személyű, fizika alapú varázslószimulátor, amelyet a klasszikus fantasy világa inspirált...
Egy lényeges szempont, hogy rengetegen használják a Bilibili-t, Kína vezető videómegosztóját, ahol anime, képregény, játék, divat, technológia, életmód és más kategóriájú tartalmak közül lehet válogatni...
🔥 Érdemes megvizsgálni, hogy a Fenegyerek: Újjászületve (Daredevil: Born Again) legújabb epizódja mennyire ügyesen csempészi vissza a régi ismerősöket a Marvel-rajongók kedvenc Netflixes sorozatából...
Napok óta tartotta magát az XRP az 1,40 dolláros (kb. 515 HUF) támasz felett, de most különösen erős eladási hullám söpört végig rajta, visszafordítva ezt a szintet ellenállássá...
Külön említést érdemel, hogy az utóbbi napokban a Vanquish játékosbázisa szokatlanul látványosan nőtt a Steamen – mindez majdnem egy évtizeddel a megjelenése után...
Többek között azoknak, akik szeretik a napi gacha játékokat, most érdemes figyelni: már nem kell sokat várni, és az ingyenesen játszható A soha-léttől az örökkévalóságig (Neverness to Everness, NTE) végre megjelenik...
👻 Isabel Allende világhírű, A szellemek háza (The House of the Spirits) című regényét most először dolgozza fel egy spanyol nyelvű televíziós sorozat, amely nyolc epizódban követi három nő – Clara, Blanca és Alba – évtizedeken átívelő családi történetét egy konzervatív dél-amerikai országban...
A Google Cloud Next 2026 eseményen több mint 260 bejelentés hangzott el, mégis megbújt néhány kevésbé látványos, ám annál jelentősebb újdonság a Google Workspace-ben...
📉 Tipikus eset, amikor minden szem a kriptón van: a Robinhood első negyedévében a kriptóhoz köthető bevételei óriási, 47%-os visszaesést mutattak, mindössze 49 milliárd forintnak (134 millió USD) megfelelő bevételt érve el ezen a fronton...
A Diablo 4 legfrissebb kiegészítője, a Gyűlölet Ura (Lord of Hatred) minden eddiginél magasabbra emelte a nehézségi szinteket, így a játékosok most még komolyabb kihívásokkal néznek szembe...
A városi fantasztikum és a menő gacha-hullám újabb csúcspontjára értünk a Neverness to Everness-ben, ahol bónusz Annulithokat szerezhetsz, ha nem hagyod ki a friss kódokat!..
A kriptovaluták piacán az év legnagyobb fordulópontjának tűnik, hogy a Wall Street óriásai, mint a Morgan Stanley, a BlackRock és a Fidelity egyre aktívabbak a bitcoin piacán, különösen a spot bitcoin ETF-ek formájában...
A sportvilág digitális forradalma új szintre lép: a Chiliz nevű blokkláncplatform egyszerre terjeszkedik a Solana és a Coinbase által fejlesztett Base hálózatra...
A The Division Resurgence eredetileg kizárólag mobilra készült, de a Ubisoft váratlanul, minden különösebb felhajtás nélkül PC-n is elérhetővé tette...
🏊 A MI-fejlesztés eddig zárt, méregdrága csodamodellek összecsapásaként tűnt fel: hol az Anthropic, hol az OpenAI villantott valami újat, de mindig fizetős és többnyire csak API-n át elérhető formában...
👨🩺 Tipikus eset: az orvostudomány rég várt áttörése végre körvonalazódni látszik. Preeklampszia esetén a várandós nők vérnyomása veszélyesen megemelkedik, ami akár halálos szövődményekkel is járhat...
💼 Friss, egységesített felülettel érkezett a Gemini Enterprise, ahol ugyanúgy lehet társalogni az AI-ügynökeiddel, ahogy a jól ismert Workspace-appokban...