MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
Felmerül a kérdés, hogy biztonságban vannak-e az adataink a Discordon, ahol nemrég 70 000 felhasználó személyi igazolványa került illetéktelen kezekbe...
☀ A Google hatalmas, 68 000 milliárd forintos (185 milliárd dolláros) beruházásra készül 2026-ban: új adatközpontokkal árasztja el a világot, amelyek a legfejlettebb MI-gyorsítókkal működnek majd...
Szingapúr négy legnagyobb távközlési szolgáltatóját – a Singtel-t, a StarHub-ot, az M1-et és a SIMBA-t – legalább egyszer sikeresen feltörte a kínai UNC3886 kémcsoport 2024-ben...
A deepfake-technológia fejlődésének köszönhetően ma már bárkinek lehetősége van profi, megtévesztő videókat és hanganyagokat készíteni, amelyekkel pénzt csalnak ki gyanútlan áldozatoktól...
⚠ Az amerikai SmarterTools cég hálózatát a Warlock nevű zsarolóvírus-csoport törte fel egy olyan sebezhetőség révén, amely saját levelezőszoftverükben, a SmarterMailben volt...
A hackerek ismét kihasználták a SolarWinds Web Help Desk (WHD) súlyos sérülékenységeit, hogy ismert távoli hozzáférési és vírusvédelmi eszközöket futtassanak gyanútlan rendszerekben...
Az OpenAI bejelentette, hogy mostantól hirdetések jelenhetnek meg a ChatGPT-ben azok számára, akik az ingyenes vagy Go csomagot használják az Egyesült Államokban...
Ilyen eset volt például, amikor az Nvidia bejelentette legújabb áttörését, a DreamDojo-t: egy teljesen új MI-rendszert, amely 44 000 órányi emberi videóból tanulja meg a fizikai világ működését...
👼 2023 elején egy egészen elképesztő esemény zajlott le a Földön: a Földközi-tenger mélyén működő óriási neutrínódetektor, a Köbkilométeres Neutrínóteleszkóp (Cubic Kilometre Neutrino Telescope, KM3NeT) olyan energiájú neutrínót érzékelt, amelyre korábban még nem volt példa...
🔎 Ilyen eset például, amikor a kutatók évtizedekig azt gondolták, hogy a DNS a nanopórusokon átpréselődve csomókat képez, emiatt bonyolult elektromos jelek jönnek létre...
💸 A dél-koreai kriptotőzsde, a Bithumb, igazi hajmeresztő bakit hozott össze: egy promóciós akció során véletlenül több mint 40 milliárd dollárnyi Bitcoint (nagyjából 14 000 milliárd forint) osztott szét új felhasználóinak...
Az Egyesült Államokban Új-Mexikó állam súlyos vádat emelt a Meta ellen, azt állítva, hogy a cég szem elől tévesztette a gyerekek védelmét a Facebookon és az Instagramon, miközben a profitot és a szólásszabadságot helyezte előtérbe...
Februártól a Discord világszerte bevezeti a kötelező életkor-ellenőrzést, ami azt jelenti, hogy minden fiók automatikusan a tiniknek megfelelő beállításokat kap, kivéve, ha a tulajdonos igazolja nagykorúságát...