MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
filózó
Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?
A pénzügyi szektor izgalma egyre nagyobb az MI-alapú vásárlások lehetőségei körül: az American Express (Amex) forradalmi rendszert fejleszt, amely lehetővé teszi, hogy MI-ügynökök – tehát digitális segítők – vásároljanak és fizessenek ügyfeleik helyett...
A videójáték-kereskedő GameStop 55,5 milliárd dolláros (20 715 milliárd forint) ajánlatot tett az online piactér eBay felvásárlására, amivel újabb lendületet kapott a terjeszkedési törekvés...
👻 1987 óta töretlenül fejlődik a NetHack, amely igazi különlegességként még ma is támogatja az MS-DOS-t – annak ellenére, hogy a Microsoft már húsz éve megszüntette e régi operációs rendszer támogatását...
Megint megcsúszott az XRP, ezúttal 1,40 dollár (kb. 510 HUF) alá esett nagy forgalom mellett, és egyre szűkebb sávban billeg a token, miközben mindkét oldal visszafogottan kereskedik...
A felhőalapú együttműködés nemcsak a nagyvállalatok kiváltsága, hanem bárki számára elérhető, aki szeretné a saját adatait teljes biztonságban, mégis könnyen elérhetően tárolni...
Az Artemis II legénysége tavasszal tíz felejthetetlen napon át kerülte meg a Hold túlsó oldalát, és közben alaposan dokumentálta kalandjait: több mint 12 000 fotót készítettek az út során...
Az ismeretlen helyek felfedezése és új élmények megélése nem csupán feltölt: a legújabb kutatások szerint valóságos immunerősítőként is működik, sőt hozzájárulhat az egészséges öregedéshez...
😂 Ryan Cohen, a GameStop vezérigazgatója szinte mindenkit ledöbbentett, amikor bejelentette, hogy 56 milliárd dollárért (azaz több mint húszezer milliárd forintért) megvásárolná az eBay-t...
Lényeges szempont, hogy a Pireneusok magaslataiban felfedezett titokzatos zöld ásvány arról tanúskodik: elődeink évszázadokon át bányatábort működtettek ott...
😃 Miközben a világ szinte minden pontján rekordsebességgel elfogytak a Steam Controller készletei, Ausztráliában még bármikor le lehet csapni az áhított eszközre...
⚡ Érdemes megvizsgálni, hogy a vállalati MI-ügynökök fejlődése miként teszi elkerülhetetlenné a technológiai váltást, amely a korábbi retrieveralapú megközelítés helyett egy előre összeállított, feladatspecifikus tudásréteget helyez előtérbe...
Ez a jelenség jól illusztrálható azzal, hogy egy egyszerű, vény nélkül kapható aminosav, az arginin, váratlanul erős védelmet nyújthat az Alzheimer-kór ellen...
Az Atlanti-óceánon közlekedő MV Hondius nevű luxushajó fedélzetén felütötte a fejét egy ritka és veszélyes fertőzés, amely már három halálos áldozatot követelt, és további utasokat is kezelés alatt tartanak...
A Coinbase világa eddig sem volt unalmas, de most egy új szintre lépett: integrálták a DFlow protokollt, így már a Solana blokkláncon is lehet közvetlenül spot- és predikciós piacokon kereskedni...
👀 Néhány nap alatt szinte felborult a világrend, ahogy fiatalok – legkülönfélébb jelmezekben – megrohamozták a Szcientológia központjait, New Yorktól Los Angelesig, szinte minden jelentősebb városban...
Nemcsak az e-mail-fiók veszélyes terep többé: már a naptármeghívók és az olyan együttműködési platformok, mint a Microsoft Teams, komolyan ki vannak téve az adathalászok támadásainak...