MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
A NASA Artemis II küldetésének űrhajósai most először készítettek olyan fotókat iPhone 17 Pro Max-szal, amilyeneket korábban egyetlen Android-telefon sem tudott: az űrből, a Holdhoz közel, az egész Föld látható egyetlen hatalmas, kék buborékként...
📱 Egy igazi ritkaság került elő: a JerryRigEverything csatornáról ismert Zack Nelson szétkapta az LG be nem mutatott, feltekerhető kijelzős mobilját, amelyet a nagyközönség sosem láthatott...
🔒 A Malwarebytes, a kiberbiztonsági piac egyik legismertebb neve, most igazi áttörést ért el átláthatóság terén: független külső félnek, az elismert X41 D-Sec csapatnak adott teljes hozzáférést VPN-szolgáltatása forráskódjához és infrastruktúrájához egy kemény, két hónapos átfogó vizsgálathoz...
Bár a világ nyelvei első ránézésre óriási különbségeket mutatnak, a legfrissebb kutatások szerint rendkívül következetes, mélyen emberi szabályokat követnek...
🚀 Évtizedek óta először jár ismét emberes űrhajó a Hold közelében. Az Artemis II négyfős legénysége – Reid Wiseman, Christina Koch, Victor Glover és Jeremy Hansen – mindössze négy nap alatt elérte azt a határt, ahol a Hold gravitációs vonzása már erősebb, mint a Földé...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Dragon Ruins I (iPhone/iPad)Ebben a retró hangulatú dungeon crawler RPG-ben a játékos Isigwere fővárosában feltárt ősi romok mélyébe ereszkedik alá...
🚀 Eljött a pillanat, amire több mint ötven éve nem volt példa: az Artemis II legénysége belépett a Hold szférájába, vagyis abba a térségbe, ahol a Hold gravitációja már erősebb, mint a Földé...
⚠ Az Egyesült Államokban csalók tömegesen küldenek hamis közlekedési bírságokat tartalmazó SMS-eket, amelyekben állami bíróságok nevében szólítják meg a címzetteket...
Felsővezetői szivárgás, pikáns európai botrány! Hackerek egy egyszerű, nyílt forráskódú biztonsági eszköz elleni ellátási lánc elleni támadást használtak ki, hogy bejussanak az Európai Bizottság szervereire...
💰 A húsvéti hosszú hétvége után visszatérő befektetők lendülete nagyot dobott a Bitcoin árfolyamán, amely több mint egy hét után ismét elérte a 69 000 dollárt (kb...
💵 Fontos kérdés, hogy az MI-forradalommal felértékelődő adatközpontok miként formálják át a biztosítási szektort, miközben soha nem látott mennyiségű magántőke és összetett pénzügyi konstrukciók áramlanak ebbe a szegmensbe...
⚡ Fontos kérdés, mennyire vagyunk felkészülve az önállóan működő MI-ügynökök megjelenésére. Míg néhány éve még csak csevegőrobotokkal szórakoztunk, ma már valós aggodalmakat vet fel az, hogy ezek a rendszerek egészen új szintre léptek...
🌕 Az emberiség kapcsolata a Holddal mindig is rendkívüli jelentőséggel bírt. A Hold nem csupán egy fényes égitest az éjszakai égbolton: évszázadokon át szolgált óraként, irányadóként, istenként és a tudományos felfedezések mozgatórugójaként...
🚀 Az Artemis II küldetés űrhajósai most tényleg mindent visznek: épp a Hold közelében járnak az Orion fedélzetén, készülődnek a hétfői holdközelítésre, és közben elképesztő panorámában gyönyörködnek...