MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
💡 Az Alzheimer-kór kialakulására mindig is az agyi plakkok és a memóriavesztés szolgált magyarázatul, de most friss kutatások új tényezőre hívják fel a figyelmet...
🤖 Nem hiszem el, de idén tényleg érdemes korábban nekiállni az adóbevallásnak – főleg, mert a 2025-ös gigatörvény (OBBBA) miatt mindenki meglepetésekre számíthat...
Külön említést érdemel, hogy a Discord jelentős változást jelentett be: elhalasztják a felhasználók életkor-ellenőrzésére vonatkozó intézkedések bevezetését...
El sem hisszük, de tényleg: a Rozsomák (Marvel’s Wolverine) megjelenési dátuma felkerült a PlayStation csatornájára, és már szeptember 15-én érkezik!..
🔒 Felmerül a kérdés, hogy az online biztonság érdekében meddig mehetnek el a techóriások, és az Apple ismét lépett: új korhatár-ellenőrző eszközöket vezet be világszerte, hogy megfeleljen a gyermekvédelmi jogszabályok egyre szövevényesebb hálójának...
Jellemző példa erre, hogy két, ugyanott meghirdetett, ugyanolyan állás sincs azonos árazással – az egyik cégnél a fizetés 7 millió forinttól 36 millió forintig terjed, egy másiknál viszont szűk sávban, 35 és 39 millió forint között van...
Anchorage Digital, az Egyesült Államok első szövetségi kriptobankja, a saját mérlegére vette a Strategy nevű, bitcoin-kincstárral rendelkező cég örökjáradék jellegű elsőbbségi részvényeit...
💻 Érdekes felvetés, hogy milyen hatást gyakorolhat a fejlesztésre, ha a legnépszerűbb MI-s kódíró ügynök, a Claude Code mostantól mobileszközökről is vezérelhető...
💻 A legfrissebb pletykák szerint idén év elején érkezhetnek meg a Dell és a Lenovo első olyan laptopjai, amelyekben már az Nvidia által fejlesztett Arm-alapú CPU dolgozik...
Külön említést érdemel, hogy a brit adatvédelmi hatóság, az ICO 14,5 millió fontnyi, azaz körülbelül 7,1 milliárd forintos büntetést szabott ki a Redditre, mert a platform nem ellenőrizte kellőképpen a felhasználók életkorát...
🔑 Az 1Password jelentősen megemeli az egyéni és családi előfizetési díjakat: az egyéni csomag éves díja 13 200 forintról 17 600 forintra ugrik, míg a családi opció 22 000 forintról 26 400 forintra nő...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Astrea: Six-Sided Oracles (iPhone/iPad)Az Astrea egy DICE-deck-building roguelike videojáték, amelyben a megszokott kártyák helyett dobókockákat használsz...
💸 Mindenki le van döbbenve, mert most tényleg forrósodik a helyzet Hollywoodban: a Paramount egy teljesen új, csinosabb ajánlatot dobott be a Warner Bros...
A SolarWinds Serv-U fájlátviteli szoftverét üzemeltetők most négy kritikus biztonsági hibával néznek szembe, amelyek azonnali frissítést tesznek szükségessé...
🚭 A Microsoft újabb lépést tesz a bizalmas adatok védelmében, és mindenhol szigorúbb szabályokat vezet be, hogy a Microsoft 365 Copilot (azaz a MI-alapú asszisztens) ne tudjon érzékeny Word-, Excel- és PowerPoint-dokumentumokat feldolgozni—függetlenül attól, hogy a fájlok hol vannak tárolva...
⭐ A csillagvetítők ma már nemcsak díszes éjszakai fények: a komolyabb modellek igazi tudományos taneszközökké váltak, amelyekkel csillagképeket, bolygókat és a világegyetem izgalmait lehet közelebb hozni a gyerekekhez...
🔎 A Discord, az egyik legnépszerűbb kommunikációs platform, komoly adatvédelmi botránnyal szembesült, miután kiderült, hogy a Persona Identities nevű azonosítószoftverének kódja nyilvánosan elérhető volt az interneten, sőt amerikai kormányzati szervereken is hozzáférhetővé vált...
Meglepő nyomokra bukkantak a németországi barlangokban előkerült, mintegy 40 ezer éves műtárgyakon: az őskori mesterek nem pusztán kedvtelésből véstek vonalakat, pöttyöket és kereszteket az elefántcsontfigurákra; ezek a díszítések egy jól szervezett, jelentéssel bíró rendszer részei lehettek...
❄ Az Egyesült Államok északkeleti részén közel 38 cm hó esett, megbénítva New York City-t, New Jersey-t, Connecticutot, Rhode Islandet és Massachusettset...
📈 A Kraken kriptotőzsde új szintre emeli a kereskedést: mostantól már tokenizált amerikai részvényekkel is lehet folyamatosan, a nap 24 órájában, akár húszszoros tőkeáttéttel kereskedni...