MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

kedd 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

MA 10:30

Az új fénytechnika feltárja az agy titkos ösvényeit

Jellemző példa erre, hogy a test minden szövetében parányi rostok hálózata működik csendben, és ezek titokban szabják meg, hogyan mozognak és működnek a szerveink, miközben a kutatóknak eddig szinte lehetetlen volt ezeket valódi részletességgel vizsgálniuk...

MA 10:25

Az aranyhidrogén rejtett készletei átírhatják az energiapiac szabályait

Nem zárható ki annak a lehetősége, hogy a Föld kérge hatalmas – akár tízezer évekre elegendő – arany hidrogén (gold hydrogen) készleteket rejt, melyek radikális fordulatot hozhatnak az energiaiparban...

MA 10:17

A Microsoft pánikfrissítése 58 hibát foltoz, köztük aktív nullanapos rést

Érdemes tudni, hogy a Microsoft decemberi Patch Tuesday-je minden eddiginél többet tartogat a rendszergazdáknak és biztonsági szakembereknek...

MA 10:03

A botrány dagad: az új mérések tovább fokozzák a Hubble-feszültséget

👀 A világegyetem tágulásának üteme a mai napig az egyik legnagyobb fejtörőt jelenti a kozmológiában, hiszen a különböző mérési módszerek ellentmondásos eredményeket mutatnak...

MA 09:57

Az OpenAI pénzcsinálását mostantól a Slack-vezér irányítja

A Slack vezérigazgatója, Denise Dresser veszi át az OpenAI bevételi stratégiájának irányítását, miután kinevezték a cég új bevételi igazgatójának...

MA 09:52

Az agy határain túl: papírvékony chip köti össze elmét és gépet

🧠 Egy forradalmi fejlesztésű agyi implantátum a mindössze papírvékony szilíciumchipnek köszönhetően új szintre emeli a gépekkel való kommunikációt...

MA 09:44

Az MI-birodalmak árnyékában: Milyen titkokat őriz az OpenAI?

🤖 Karen Hao könyve, Az MI birodalma (Empire of AI) az elmúlt évek egyik legfontosabb technológiai leleplezésévé vált...

MA 09:37

Az ősz haj nem várt szövetségese: harcolhat a rák ellen

🧘 Egy idő után szinte mindenkinek őszülni kezd a haja, de most kiderült: ez nemcsak az öregedés jele, hanem akár a szervezet természetes védelmi mechanizmusának jele is lehet a rák ellen...

MA 09:29

Az EU keményen nekimegy a Google-nek az MI-tartalmak miatt

⚠ Az Európai Bizottság újabb versenyjogi vizsgálatot indított a Google-lal szemben, mivel a cég állítólag jogtalanul használja fel az internetes tartalmakat saját MI-megoldásaihoz...

MA 09:22

Az új PowerShell-riasztás lefüleli a gyanús webes parancsokat

A Windows PowerShell mostantól figyelmezteti a felhasználókat, ha az Invoke-WebRequest parancsot használó szkriptek futnak le, és ezzel megakadályozhatja, hogy potenciálisan veszélyes kód fusson le a rendszereden...

MA 09:16

Az MI-óriások összeállnak: jöhet az egységes szabvány

🤝 Például az elmúlt évben egyre többször hallani, hogy megérkezett az MI-ügynökök korszaka, mégis a legtöbb ígéretből eddig kevés vált valóra...

MA 09:09

A Mars-terv: kötelező vadászat az idegen élet nyomaira

Érdemes megvizsgálni, hogy a Mars felfedezése nemcsak hősiességről vagy új kolóniák építéséről szól...

MA 09:02

Az Uber már app nélkül is rendelhető – itt az új utazós trükk

🚗 Az Uber mostantól lehetővé teszi, hogy utasok mobilalkalmazás nélkül is foglaljanak fuvart: új, önálló kioszkokat telepít először a New York-i LaGuardia repülőtér C termináljába, és hamarosan reptereken, hotelekben és kikötőkben is megjelennek...

MA 08:57

Az öntrágyázó gabonák áttörése: két aminosav mindent átír

Egy apró, de jelentős felfedezés közelebb vihet ahhoz, hogy a gabonafélék saját magukat trágyázzák – ez alapjaiban rengetheti meg a műtrágyák piacát, és jelentősen csökkentheti a mezőgazdaság károsanyag-kibocsátását...

MA 08:50

Az óriási adatlopási botrány után lemondott a Coupang vezérigazgatója

Park Dae-jun, a dél-koreai online kereskedelmi óriás, a Coupang, vezérigazgatója három héttel azután mondott le, hogy a vállalat egy hatalmas adatlopás áldozata lett...

MA 08:43

Az Instagram titokban SEO-címeket ír a posztjaidhoz

🔍 Az Instagram újabb trükkel igyekszik feltornázni a felhasználók bejegyzéseit a Google keresési találatai közé...

MA 08:37

Az ellátási láncok leválnak Kínáról: most jönnek a tettek

📦 Az európai cégek egyre határozottabban lépnek fel annak érdekében, hogy kevésbé függjenek a kínai beszállítóktól...

MA 08:29

Az OpenAI tényleg megnyitja az MI-t, vagy csak színlel?

Az OpenAI, az Anthropic és a Block együttműködésével új MI-alapítvány indult a Linux Foundation égisze alatt...