MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
filózó
Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?
Michael Saylor, a MicroStrategy társalapítója új elnevezést adott a Wall Street legmeghatározóbb cégeinek, miután a SpaceX rekordméretű, 1,75 billió dolláros (kb...
Ebből következően érdemes megérteni, hogy a kullancsok nemcsak olyan ismert betegségekkel fertőzhetnek meg, mint a Lyme-kór, hanem okozhatnak egy ritka, de egyre gyakoribb és komoly problémát is: a húsallergiát...
A chatbotok világában gyakran felmerül az igény, hogy egy másik MI‑platformot próbáljunk ki, azonban sokakat visszatart, hogy elveszthetik eddigi beszélgetéseiket és beállításaikat...
Jó példa erre, hogy Maine állam kénytelen volt leállítani a nyilvános adatszivárgás-bejelentő portálját, miután ismeretlenek hamis biztonsági incidensekről szóló közleményeket töltöttek fel a hivatalos rendszerbe...
🔒 Ezt jól illusztrálja, hogy egy tíz éve rejtőző, súlyos biztonsági rés most derült ki a phpBB fórummotorban: a sebezhetőség lehetővé teszi, hogy bárki bejelentkezhessen bármely felhasználó, akár rendszergazda nevében is...
A Parker Solar Probe újabb látványos repülést hajtott végre a Nap körül, ezzel az emberiség csillagokhoz írt történetének egyik legizgalmasabb fejezetét folytatva...
Az Amazon egy merőben új hálózati topológiát fejlesztett ki, amely akár egyharmaddal gyorsabb, és 40 százalékkal energiahatékonyabb a hagyományos, hierarchikus hálózati rendszereknél...
Az Alphabet (GOOGL) az egyik legnépszerűbb befektetés a világ legnagyobb alapkezelői számára, és a Chase Coleman vezette Tiger Global Managementnél is ez a legnagyobb portfólióelem...
💡 Évtizedek óta tartja magát a tévhit, hogy az öregedés egyet jelent a szellemi hanyatlással, de a legfrissebb tudományos eredmények minden várakozást felülmúltak...
Az E-ink kijelzők mindig is híresek voltak az energiatakarékosságukról és szemkímélő megjelenítésükről, de a lassú frissítési sebességük miatt eddig kevéssé voltak alkalmasak számítógép-monitorként...
Tipikus eset, amikor a múlt technológiája váratlanul bukkan elő a mindennapokban: a London Docklands Light Railway (DLR) egyik Limehouse állomásán XP-korszakbeli Windows jelent meg a kijelzőn...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Monthly Dystopia (iPhone/iPad)A Monthly Dystopia egy túlélő játék, amelyet George Orwell 1984 című regénye inspirált...
😵 Az indonéziai Batang Toru-erdő sűrű lombjai között az emberiség legritkább emberszabású majmai, a Tapanuli orángutánok hónapokig szinte láthatatlanul éltek – egészen addig, amíg egy négy napig tomboló, a klímaváltozás miatt felerősödött ciklon le nem sújtott rájuk...
Rövid áttekintő: Vallásszabadságot hirdet az Edictum Mediolanense, Rhode Island betiltja a rabszolgák behozatalát, a Pentagon Papers publikálása pedig alapjaiban rázza meg az amerikai közvéleményt...
📦 Továbbá megemlíthető, hogy a vállalati információ-visszakeresésben eddig megszokott módszerek – ahol egyszerű szövegfeldolgozóval alakítják át a weboldalakat vagy dokumentumokat szöveggé – komoly hátrányokkal járnak...
Az ízületi porckopás világszerte emberek millióinak életét keseríti meg: a mozgás fájdalmassá válik, a hétköznapi tevékenységek is nehézzé, küzdelmessé lesznek...
💫 Továbbra is kevesen gondolnának arra, hogy egy rövid távú, alacsony kalóriatartalmú diéta nemcsak a testsúlycsökkentésben lehet hasznos, hanem az íny gyulladásának csökkentésében is komoly szerepet játszhat...
Elon Musk legendás vállalata, a SpaceX lenyűgöző startot vett a Nasdaqon: a részvények már a nyitány után 20%-kal drágultak, 162 dollárig emelkedtek, miután az elsődleges részvénykibocsátási árat 135 dolláron állapították meg...
🔥 Az elmúlt hetekben felröppent a hír, hogy az Asus legújabb, elvileg minden olvadási problémát megszüntető grafikuskártya-kábele – a ROG Equalizer – szintén megadta magát, méghozzá látványosan...