MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
filózó
Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?
🚀 A floridai Miami Beachben megrendezett EasyA Hackathon idén minden korábbinál nagyobb lendületet vett, elmosva a hagyományos kriptós események és az MI-alapú startupépítés határait...
Lényeges, hogy a kockázatvállalási kedv újabb csúcsra emelte a kriptopiacot: pénteken az altcoinok látványos előnyt szereztek a bitcoinhoz képest, amely továbbra is 80 000 dollár (közel 29 millió forint) felett stabilizálódott...
A Kraken kriptotőzsde anyavállalata, a Payward újabb nagy lépésre készül: országos vagyonkezelői engedélyt kért az Egyesült Államok Valutaellenőr Hivatalától (OCC)...
Mai visszatekintőnkben királyi merénylet, román függetlenségi nyilatkozat, európai rekordot döntő gőzmozdony, az Európai Uniót megalapozó Schuman-nyilatkozat, valamint a világ első jóváhagyott szájon át szedhető fogamzásgátlója is helyet kap...
💻 Felmerül a kérdés, hogy hová tűnik a rengeteg adat, hiszen a legújabb Micron SSD-be már 245 TB-nyi adat fér el – nagyjából egy egész adatközpontnyi kapacitás egyetlen egységben...
🔒 Ami először apróságnak tűnt, mára kulcskérdéssé vált: miként biztosítható a vállalati szoftverek megbízhatósága és biztonsága az MI-vezérelt ökoszisztémában?..
A kriptopiac legizgalmasabb fejleménye az utóbbi időben, hogy a stabilcoinok már nem csupán digitális kuriózumnak számítanak, hanem a hagyományos pénzügyek világában is komoly szerepet kaptak...
Több mint hétmillió alkalommal töltöttek le olyan androidos alkalmazásokat a Google Play Áruházból, amelyek hamisan ígértek hozzáférést telefonhívásokhoz, SMS-ekhez és WhatsApp-üzenetekhez...
🌨 Érdekes felvetés, hogy a Final Fantasy 14 bővítményeinek nevei mindig összetett szavakból állnak, amire már több mint egy évtizede következetesen ügyel a Square Enix...
📈 Az XRP árfolyama közelít az 1,40 dolláros, vagyis bő 510 forintos szinthez, miközben az utóbbi időben a volatilitás látványosan visszaesett, a piac pedig egyre kisebb sávban kereskedik...
A legtöbb jelszó alig jelent akadályt a hackereknek. Egy friss kutatás szerint világszerte majdnem minden második jelszót kevesebb mint egy perc alatt fel lehet törni...
Fontos kérdés, mennyire megbízhatóak a kriptovaluta-alkalmazások valós piaci körülmények között. Ilyen eset például, amikor egy elterjedt pénzügyi appban egy hirtelen árfolyamesés villan fel a semmiből – legalábbis néhány felhasználó képernyőjén...
💻 Rengetegen bosszankodnak Windows 11 alatt a régi, elavult párbeszédablakok láttán. Ezek a menük igencsak árulkodnak arról, hogy a rendszer mélyén sokkal idősebb kódrétegek lapulnak, mint gondolnánk...
💸 Érdemes megvizsgálni, hogy a bitcoin újabb zuhanását ismét a geopolitikai feszültségek okozták: az Egyesült Államok iráni légicsapásai az olaj árát átmenetileg hordónként 100 dollár (kb...
A ShinyHunters hackercsoport újabb szintre emelte a támadását, amikor átmenetileg manipulálta csaknem 330 oktatási intézmény bejelentkezési oldalait...
🚀 Honor ismét nagyot alkotott a MagicPad 4-gyel, amely nem csupán az előző modell minden hibáját javította ki, hanem új szintre is emelte a középkategóriás Android tabletek mezőnyét...
Az Xbox vezetője, Jason Ronald bejelentette, hogy még idén további részleteket árulnak el a Project Helix néven futó, következő generációs konzolról...
🔍 Egy komoly konfliktus bontakozik ki a Google és az Európai Unió között a keresési adatok felett, amely alapjaiban forgathatja fel azt, ahogyan mindennap böngészünk a neten...
Felmerül a kérdés, mikor jön el az idő, amikor nem te intézed az online fizetéseket, hanem egy MI dönt, és a háttérben hajt végre minden tranzakciót...
💳 Az elmúlt évben robbanásszerűen nőtt a stabilcoin-alapú bankkártyák forgalma, a kártyás, stabilcoinnal történő vásárlások értéke több mint 105%-kal ugrott meg...