MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
filózó
Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?
📈 Erre utal többek között az, hogy a kriptopénzek piaca szerdán stabilizálódni látszott a korábbi esés után, miután a legnagyobb tőzsdén jegyzett bitcoin-tulajdonos, a MicroStrategy (MSTR) tartalékai egy újabb kis részét értékesítette, és a tőzsdei bitcoinalapok (ETF-ek) is sorozatban rekordösszegű kiáramlásokat könyveltek el...
Ez a jelenség jól illusztrálható azzal, hogy egyre többen keresnek hosszú gyújtótávolságú, megfizethető objektíveket, hogy komolyabb szintre emeljék a természet- vagy madárfotózást, kompromisszumok nélkül...
👑 A Computex rendezvény egy váratlan pillanatát örökítették meg, amikor Jensen Huang, az Nvidia vezérigazgatója, rajongók között autogramot osztogatott – igazi sztárként ünnepelték...
Erre utal többek között az is, hogy Kína hétfőn váratlanul, előzetes figyelmeztetés nélkül bocsátotta fel legújabb, újrafelhasználható hordozórakétáját, a Long March 12B-t...
💃 Raine Michaels, Bret Michaels lánya, egy új valóságshow-ban szerepel, ahol nyíltan beszél az életéről – még arról is, hogy lábáról készült fotókkal keresne pénzt...
A háttérben egészen más zajlott: a Stripe, a Visa és a Mastercard hamarosan közösen indítanak egy stabilcoin‑platformot, amelyhez az amerikai Coinbase kriptotőzsde is csatlakozhat...
🔒 A decentralizált pénzügyi megoldások (DeFi) valódi jelentőségét nem a spekulatív kereskedés, hanem a nemzetközi bankrendszer háttérfolyamatainak átalakítása adhatja meg...
😱 Egy 11 éves indiai fiú szülei kétségbeesetten fordultak orvoshoz, amikor fiuk különös tüneteket produkált: szeméből, füléből és orrából időnként vér szivárgott mindenféle látható ok nélkül...
🪖 Több mint száz évvel azután, hogy egy walesi barlang falán vörös vonalakat fedeztek fel, most úgy tűnik, sikerült bizonyítani, hogy ezek a legrégebbi ismert sziklarajzok a Brit-szigeteken...
🔐 A Trezor hardveres kriptotárcák gyártója egy chiphibát tárt fel vadonatúj Safe 7 készülékében, miután a rivális Ledger kutatói sikeresen demonstráltak egy laboratóriumi támadást...
💰 Érdemes megvizsgálni, hogy az amerikai bankok miért tartanak a stabilcoinok elterjedésétől, és miként próbálnak hatni a törvényhozókra a digitális eszközök szabályozására...
🔑 A nagyvállalatok világában a compliance sokak számára szükséges rossz: lassító, bonyolító, időrabló tényező, amit auditorok, jogászok, szabályozó hatóságok rákényszerítenek azokra, akik a cégükkel haladni igyekeznek...
💀 Egy lényeges szempont, hogy a Sony Santa Monica egy teljesen új irányba viszi a God of War sorozatot: a Laufey alcímű részben most először Kratos feleségét, Faye-t irányíthatják a játékosok...
Megdöbbentő megfigyelés nyomán új útra lép a lakható exobolygók kutatása: csillagászoknak először sikerült közvetlenül kimutatniuk több távoli bolygó mágneses mezejét...
Egy szombat délután váratlanul megszakadt az ég nyugalma az Egyesült Államok északkeleti részén: egy tűzgömb 230 tonna TNT erejével robbant fel, dörejét több államban és két kanadai tartományban is hallották...
📸 A Sigma 60–600 mm f/4.5–6.3 DG DN OS Sport objektív pontosan azt hozza, amit várnánk egy sportobjektívtől: nagy, masszív, és már ránézésre is azt sugallja, hogy túléli a zordabb körülményeket is...
Franklin Templeton vezérigazgatója, Jenny Johnson szerint a blokklánc és a kriptovaluta alapjaiban rengetik meg a pénzügyi rendszert, mert közvetlenül veszélyeztetik a hagyományos, busás díjakkal működő üzleti modelleket...
Szeptemberben sosem látott játéközönre lehet számítani: négy-öt nagy név döntött úgy, hogy még időben, jóval a Grand Theft Auto VI megjelenése előtt piacra lépjenek...
2024-ben az Egyesült Államok egészségügyi intézményei rekordmennyiségű, 275 millió beteg adatának kiszivárgását jelentették, bőven megduplázva az előző évet...