MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
🐅 Szeptemberben a Stelvio Nemzeti Park hegyóriásai között, a Fraele-völgyben egy vagány fotós, Elio Della Ferrera belebotlott minden paleontológus álmába: kétezer dinoszauruszlábnyom hemzseg egyetlen sziklafalon...
A kilencvenes években Alex Ross a Csodák (Marvels) és az Eljövendő királyság (Kingdom Come) minisorozatokkal robbant be a képregények világába, ahol egyedi, hipervalósághű festészete nemcsak borítókon, hanem belső oldalakon is megjelent...
Az alig 73 000 forintba kerülő Samsung Galaxy A17 5G első pillantásra elképesztő vételnek tűnik: hatalmas, fényes kijelző, meglepően jó kamerák, illetve hat éven át biztosított szoftveres és biztonsági frissítések...
💡 Erre utal többek között az, hogy az MI-technológia fejlődése már nem csupán a grafikus processzorokról (GPU-król) szól – egyre nagyobb szerep jut a memóriának is...
🤔 Na, megint eljött az évnek az a misztikus időszaka, amikor a Google nem bírja ki, hogy egyszerűen csak kiírja nekünk az I/O fejlesztői esemény dátumát...
A jelszókezelők évek óta a digitális biztonság egyik legfontosabb eszközei, hiszen arra hivatottak, hogy minden belépési adatodat szigorúan titkosítva tárolják, akkor is, ha az őket futtató felhőszolgáltató rendszere veszélybe kerül...
💸 A vezető technológiai vállalatok jelenleg olyan ütemben fektetnek be a mesterséges intelligenciába, hogy elképzelhető: néhányuk szabad pénzárama veszélyesen alacsony szintre eshet...
Írország adatvédelmi hatósága hivatalos vizsgálatot indított az X ellen, amiért a platform Grok nevű MI-eszközével valós emberekről – köztük gyerekekről – hozzájárulás nélkül szexuális képeket készítettek...
🚫 Az Európai Parlament minden beépített MI-funkciót letiltott a hivatalos munkaeszközökön, miután komoly aggodalmak merültek fel az adatbiztonság és a kibervédelem terén...
A mindennapok részévé váltak azok a rendszerek, amelyek korábban csak látványos csevegőprogramok voltak: ma már oktatási intézményekben, irodákban és kórházakban is az MI segíti a munkát...
🛑 A Shein, a szingapúri gyorsdivatcég, megint bajban van, mert az Európai Bizottság szerint túl addiktív a vásárlási élmény, és bőven akadnak problémás cuccok is a kínálatban – beleértve az illegális és veszélyes termékeket...
💰 A Snap hamarosan elérhetővé teszi a Creator Subscriptions nevű szolgáltatást, amellyel a legaktívabb rajongók havidíjas előfizetéssel támogathatják kedvenc Snapchat-tartalomgyártóikat, és ezért exkluzív tartalmakat kaphatnak...
🔥 A Samsung tényleg mindenhová feltolja az AI-t: a telefonoktól a háztartási gépekig, most pedig gátlástalanul beteríti vele az egész közösségi médiáját is...
🚀 A Tejútrendszer közepének vizsgálata során a kutatók egy lenyűgöző rádiójelet figyeltek meg: egy elképesztően gyors, mindössze 8,19 ezredmásodpercenként forgó pulzárt, amely a Sagittarius A* nevű szupermasszív fekete lyuk közelében található...
📷 Az X platform már megint bajban van: újabb uniós vizsgálat indult, mert a Grok MI-rendszer tömegesen készített engedély nélküli, szexuális tartalmú képeket, köztük gyermekekről...
🚇 Kapaszkodj meg: hackerek kezdték árulni a sötét weben azokat az érzékeny utasadatokat, amelyeket nemrég loptak el az Eurail hollandiai szervereiről...
💻 Március 4-én ismét az Apple kerül reflektorfénybe: a vállalat egy különleges eseményt jelentett be, amelyen várhatóan több, régóta várt eszközt is bemutathat...
Nehéz elhinni, de a kreatív szoftverpiac egyik leglátványosabb fordulatát a Canva hozta el, amikor felvásárolta a nagy múltú Affinity csomagot, és minden fő funkcióját ingyenessé tette...
Az indiai Adani-csoport egészen elképesztő, 37 ezermilliárd forintos beruházást tervez a következő évtizedben, hogy mesterségesintelligencia-alkalmazások futtatására alkalmas adatközpontokat fejlesszen szerte Indiában...