MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
📱 A Nothing Phone 4a és a Nothing Phone 4a Pro várhatóan már március elején, pontosabban március 5-én mutatkoznak be, így aki új készülékre vágyik, annak már alig egy hónapot kell csak várnia...
🚀 A NASA ismét elhalasztja az Artemis II holdmisszió indítását, mert a hétfői próbán a rakéta és a floridai Kennedy Űrközpont indítóállványa között komoly hidrogénszivárgást észleltek...
🚀 Elon Musk újabb meghökkentő lépése alapjaiban formálja át a technológiai világot: a SpaceX váratlanul felvásárolta a három éve alapított xAI-t, így egyesült a rakétatechnológia, az MI és az űrinternet világa...
🕵 A napokban orosz hackerek, az APT28 (más néven Fancy Bear vagy Sofacy), kihasználták a Microsoft Office egy frissen javított sérülékenységét (CVE-2026-21509) célzott támadásokhoz Ukrajnában és más európai szervezetek ellen...
Érdekes felvetés, hogy a szívbetegségek, amelyek ma Magyarországon is vezető haláloknak számítanak, sok esetben megelőzhetők lennének egy kis odafigyeléssel...
Az MI és a kriptopiac összefonódása rengeteg izgalmat vált ki, de egyelőre hiányzik az a világos és közérthető alkalmazás, amely valódi áttörést hozna...
A francia hatóságok kibervédelmi egységei, az Europol támogatásával, razziát tartottak Elon Musk közösségi platformjának, az X-nek a párizsi irodáiban...
💡 A Google Home új frissítésének köszönhetően a kamerák legfrissebb felvételei most már sokkal megbízhatóbban lejátszhatók, így a bosszantó “A videó nem érhető el” hibák ritkábban fordulnak majd elő...
Elon Musk egyesíti a SpaceX-et és az xAI-t (amely az X-et is birtokolja), hogy létrehozza a Földön (és azon túl) a legambiciózusabb, egységes innovációs gépezetet...
A Waymo friss tőkebevonása 5800 milliárd forintot hozott a cég kasszájába, hogy önvezető taxiparkját az USA számos új városába, sőt a világ több pontjára is eljuttassa...
Elon Musk újra megkeverte a lapokat: a SpaceX bekebelezte saját MI-cégét, az xAI-t, így egy fedél alá kerülnek a rakéták, a műholdas internet, a mesterséges intelligencia és a világelső, szólásszabadságot hirdető közösségi platform...
Érdekes kérdés, mivel készül a Samsung az okostelefon-piacon: néhány nap alatt teljesen elfogyott a Galaxy Z TriFold, amely minden előjel nélkül, csekély hírveréssel került forgalomba, és meglepően magas, 1 070 000 forint körüli áron talált gazdára...
🌌 Az elmúlt 24 órában a Nap 4366-os aktív foltja elképesztő, 27 napkitörést produkált, ráadásul ezek között volt az utóbbi évek legerősebb kitörése is...
Kína hamarosan betiltja az elektromos autókon az elrejtett ajtókilincseket, miután több tragikus baleset nyomán világszerte megkérdőjelezték ezt a megoldást, amelyet a Tesla tett elterjedtté...
💻 A SoftBank leányvállalata, a Saimemory és az Intel közös fejlesztésbe kezd, hogy megalkossa a következő generációs MI-hez és nagyteljesítményű számítástechnikához készült memóriatechnológiát...