MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk.
A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.
Nem egészen a klasszikus játék
Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.
A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.
Meglepő eredmények
A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.
A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.
A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.
Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.
De legalább nézhetjük, ahogy az MI Mariót játszik.
filózó
Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?
A Mythos névre keresztelt MI-modell bármelyik pénzintézet rémálma lehet: fejlett programozási képességeinek köszönhetően nemcsak felismeri a pénzügyi rendszerek gyenge pontjait, hanem meg is mutatja, hogyan lehet őket kihasználni...
🚀 Az Apple jelentős bejelentést tett: szeptember 1-től John Ternus veszi át a vezérigazgatói posztot, Tim Cook pedig az igazgatótanács ügyvezető elnöke lesz...
🚀 Az űrhajósok visszatérése a Holdra ismét veszélybe került: a NASA jelenleg nem rendelkezik megfelelő szkafanderrel, a fejlesztés pedig komoly csúszásban van...
🧠 A Föld első életformái, a kékeszöld baktériumok évmilliárdokkal ezelőtt nemcsak az oxigéndús légkör kialakításában voltak úttörők, hanem most úgy tűnik, az evolúció kreativitásáról is új történetet mesélnek...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Sight Words: Dolch Coach (iPhone/iPad)Ez a játék a Dolch Sight Words mind az öt szintjére épül, elősegítve az angol szavak gyors és pontos felismerését...
Első pillantásra úgy tűnhetett, hogy a blokkláncok szinte feltörhetetlen biztonsága egy ideig még nem kérdőjelezhető meg, azonban a közelgő kvantumszámítógépes forradalom mindent megváltoztat...
🔒 Valami egészen váratlan fogadta a Seiko USA honlapjának látogatóit a hétvégén: egy „HACKED” feliratú oldal jelent meg, amely a megszokott sajtószoba tartalma helyett durva üzenettel és ultimátummal várta a mit sem sejtő nézelődőket...
A Blue Origin New Glenn rakétájának harmadik útját újabb mérföldkőnek szánták a kereskedelmi űrkilövések piacán, de a bemutatkozás nem alakult álomszerűen...
🌈 Április 20-án, helyi idő szerint délután 4:53-kor 7,7-es erősségű földrengés rázta meg Japán legnagyobb szigetének, Honshūnak az északkeleti partvidékét...
👽 Az egyik marsi kráterben több mint fél évszázada egy titokzatos, sötét folt terjeszkedik, amelynek eredetére és növekedésére máig nincs egyértelmű magyarázat...
Az Arbitrum biztonsági tanácsa váratlanul lépett: 30 766 ETH-t, vagyis körülbelül 71 millió dollárt (26 milliárd forintot) fagyasztott be, miután hackerek szombaton 292 millió dolláros (108 milliárd forintos) kárt okoztak a Kelp DAO hídján...
🚨 Egyre kiterjedtebb botnethálózatot használnak a Gentlemen zsarolóvírus mögött álló szervezett bűnözői csoportok a legújabb támadási hullámokban: a SystemBC nevű proxy kártevővel világszerte több mint 1 570 vállalati rendszert sikerült megfertőzniük...
Az UC Riverside kutatóinak sikerült jelentősen növelniük a nyugati szárazfa-termesz irtásának hatékonyságát, méghozzá egy váratlanul egyszerű módszerrel...
Ez a jelenség jól illusztrálható azzal, hogy az űrhajósok több hónapnyi súlytalanságban töltött idő után is úgy fogják meg a tárgyakat, mintha azok ugyanolyan nehezek lennének, mint a Földön...
🚀 Komolyan mondom: az Amazon tényleg beáll a mesterségesintelligencia-őrület élére! Most újabb, közel 1 800 milliárd forintos, azaz akár 25 milliárd dolláros befektetést önt az Anthropic nevű MI-cégbe — és ez még csak a harmadik masszív pénzeső eddig...
Kínában rejtett támadás érte az Apple App Store-t: 26 hamis alkalmazás jelent meg, amelyek népszerű kriptopénztárcáknak, például a MetaMasknak, a Coinbase-nek, a Trust Walletnek és a OneKeynek álcázták magukat...
🕵 Az Anthropic Claude Desktop alkalmazása egy eddig példa nélküli, rejtett trükköt alkalmaz a számítógépeken: azonnal telepít egy engedélyező fájlt, amely még olyan böngészőkhöz is beállításokat hoz létre, amelyek nincsenek is telepítve az eszközön...
Majdnem ötven éve indult útnak az ikonikus Voyager 1 űrszonda, amely a külső Naprendszer felfedezésére indult, ma már azonban élete végső szakaszához érkezett...
A tumorsejtek hírhedtek arról, hogy különösen nagy szükségük van a glutamin nevű aminosavra, azonban amikor kifogynak belőle, sokuk képes más tápanyagokra átállni...
🌎 Megérkezett egy új, menő Chrome-oldalsáv, aminek köszönhetően mostantól bármelyik böngészőfülön cseveghetsz a Gemini-vel – és igen, használhatod asztali gépen vagy akár iPhone-odon is, szinte mindenhol ezen a kontinensen...
Öt évnyi munka eredményeként csillagászok megalkották az eddigi legnagyobb, nagy felbontású 3D térképet az univerzumról, amelyben több tízmillió galaxist követtek nyomon...