MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
Valami szokatlan történt a SpaceX egyik Starlink-műholdjával: 560 km-rel a Föld felett elvesztette a kapcsolatot az irányítókkal, minden jel szerint egy belső, nagy energiájú esemény miatt, nem pedig ütközés következtében...
Na most kapaszkodj, mert egész sor Google Fi-előfizető kapott hidegzuhanyt: a mobilnet egy csapásra megszűnt, mintha a SIM-kártyájuk eltűnt volna a semmibe...
🤖 Első pillantásra úgy tűnt, hogy a mesterségesintelligencia-ügynökökkel végzett kódellenőrzés szinte megoldhatatlan probléma: minden egyes kódtárhoz költséges és bonyolult szimulált futtatási környezetet (sandboxot) kell felépíteni, emiatt folyamatosan nőnek az infrastrukturális terhek...
Kína a közelmúltban drasztikusan csökkentette a légszennyezést okozó aeroszol-kibocsátását. Ez a lépés nemcsak hazai szinten hozott látványos változásokat, hanem egészen a sarkvidékig hullámzott tovább, meglepő következményeket okozva...
Kína az elmúlt évtizedben radikális lépéseket tett a légszennyezés visszaszorítása érdekében, ennek nyomán azonban meglepő hatások jelentek meg az Északi-sarkvidéken...
Képzeld el: 500 ezer sornyi kód, majdnem 2 ezer fájl, és mindez csak úgy kikerült egy szimpla reggelen – mintha valaki véletlenül feltenné a titkos naplóját az Insta-sztorijába!..
Az Anthropic nagy hibát követett el: a nyílt forráskód iránti elköteleződésük ellenére a Claude Code eddig szigorúan zárt forrású volt, ám egy mai frissítés során véletlenül elérhetővé vált a teljes belső programkód...
🖊 Érdemes megvizsgálni, hogy egyetlen vállalat hogyan képes formálni a digitális korszakot – nemcsak eszközeivel, hanem a róluk szóló mondatokkal is...
👤 Eljött az idő: 22 év várakozás után a Gmail végre lehetőséget ad arra, hogy megváltoztasd a régóta nyögvenyelős e-mail címedet anélkül, hogy emiatt elveszítenéd a leveleidet, vagy teljesen új fiókot kellene nyitnod...
🌊 Utah állam legendás Nagy-Sóstója csak sósvízi óriásként ismert, de most kiderült, hogy jóval többet rejt: mélyen a tó feneke alatt a friss kutatások szerint hatalmas édesvízkészlet húzódhat...
A Google legfrissebb kutatása szerint már egy 500 000 kvantumbittel (qubittel) rendelkező kvantumszámítógép képes lehet feltörni a Bitcoin elliptikus görbékre épülő titkosítását – ehhez korábban jóval nagyobb értéket becsültek a szakértők...
💥 Feltételezhetően iráni hackercsoportok százával támadják a közel-keleti önkormányzatok Microsoft 365-fiókjait gyenge jelszavak tömeges próbálgatásával...
📹 Mostantól elég egyetlen mozdulat, és már kérhetsz is személyre szabott videót a kedvenc TikTok-készítődtől – nem kell többé külön alkalmazásokkal szenvedni...
💻 Tipikus eset, amikor egy frissítés több gondot okoz, mint amennyit javítana: a Microsoft nemrég kénytelen volt sürgősségi, rendkívüli frissítést kiadni, miután a márciusi opcionális, nem biztonsági Windows 11 előzetes frissítés (KB5079391) telepítése számos felhasználónál kudarcba fulladt...
Évtizedekkel az Apollo–17 után az Artemis II küldetés újra embert juttat a holdi környezetbe, közvetlenül a leendő holdbázis megvalósításának küszöbén...
🚗 A japán óriás újra beszáll a hidrogénes játszmába, méghozzá nem is akárkikkel: összeáll a Daimlerrel és a Volvóval, hogy közösen fejlesszék az üzemanyagcellás technológiát...
🛸 A SpaceX legutóbb egy váratlan Starlink-anomáliával szembesült: a cég elvesztette a kapcsolatot az egyik műholdjával, amelynek következtében a szatellit legalább tucatnyi darabra szakadt a Föld körüli pályán...
🚗 Érdemes megvizsgálni, hogy a Tesla robotaxijai néha valóban nemcsak maguktól közlekednek: bizonyos esetekben emberi operátorok veszik át a távoli irányítást...
🚀 A 2026 tavaszán startoló Artemis II küldetésben négy űrhajós – három amerikai és egy kanadai – tíz napon keresztül utazik majd a világ legerősebb rakétájával a Föld körüli pályán túlra, egészen a Hold közelébe...