MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 13:33

Az ázsiai tőzsdék zuhannak: visszaüt a MI-láz

Az ázsiai tőzsdéken kedden jelentős zuhanásokat láthattunk, miután a Wall Streeten is mélyrepülésbe kezdtek az MI-vel kapcsolatos technológiai vállalatok...

MA 13:02

Az univerzum mindent eltitkol: a fekete lyukak információs rejtélye

A világháló törékeny, a világegyetem örök Miközben az internetes oldalak közel fele már eltűnt a 2013-ban létezők közül, és rengeteg Wikipédia-oldalon halott hivatkozások vannak, az információk látszólag állandóan elvesznek körülöttünk...

MA 12:33

Az MI-verseny új bajnoka a Grok 4.1 – tényleg jobb?

🥇 Elon Musk MI-cége, az xAI elérhetővé tette a Grok 4.1-et, amely két új, továbbfejlesztett modellt kínál: a Grok 4...

MA 12:18

Az év űrszenzációja: Elképesztő, sosem látott képek a 3I/ATLAS-ról

Érdemes tudni, miért lesz november 19. különleges nap a csillagászat rajongói számára: a NASA végre bemutatja a 3I/ATLAS nevű csillagközi üstökösről készült, eddig nem publikált képeit...

MA 12:02

Kiváltja az iPhone vagy az Apple Watch az igazolványt?

💳 November 12-től új digitális azonosítási mód jelent meg az Apple-nél, amely lehetővé teszi, hogy amerikai útlevél alapján bárki létrehozzon és bemutasson egy személyi igazolványt közvetlenül az Apple Wallet alkalmazásban – akár iPhone-nal, akár Apple Watch-csal is...

MA 11:50

Az indiai hiány elszállt: aranyláz, amerikai válság fűti

🤑 Októberben India árukereskedelmi mérlege minden eddigi rekordot megdöntött, a hiány elérte a 15 470 milliárd forintot (41,7 milliárd dollár)...

MA 11:34

A Pentagon titkai ömlenek a netre

A Pentagonban komoly gondot okoz, hogy katonák és civilek egyaránt titkos információkat osztanak meg a közösségi oldalakon...

MA 11:01

Az adataink új őre: megérkezett a Private AI Compute

A Google új szintre emeli a mesterséges intelligencia felhasználását: bejelentette a Private AI Compute megoldást, amely a Gemini felhőalapú MI-modellek erejét ötvözi a bevált adatvédelemmel...

MA 10:57

A Google új időjárás-előrejelzése: villámgyors, elképesztően pontos, MI-vel

A Google jelentős frissítést hajtott végre időjárás-előrejelző rendszerén: új, MI-alapú modellje minden eddiginél pontosabban és gyorsabban jósolja meg az időjárást...

MA 10:49

Az OpenAI végre zöld utat ad a jótékony részvényadományoknak

Az OpenAI jelenlegi és korábbi dolgozói évek óta frusztráltan figyelték, hogy nem tudják részvényeiket jótékony célokra felajánlani...

MA 10:43

Az üzenet, amelyet a jövő civilizációinak hagynánk örökül

Érdemes végiggondolni, miként tudnánk a számunkra fontos ismereteket és gondolatokat átmenteni a távoli jövőbe, amikor az írott tudás rövidebb életű, mint valaha...

MA 10:33

Az ámbráscetek titkos kódja: jön a nagy áttörés

A UC Berkeley kutatói izgalmas áttörést értek el az ámbráscetek kommunikációjának megfejtésében...

MA 10:25

A Nest okostermosztátok titokban adatokat küldenek a Google-nek

Még akkor is, ha kikapcsolod a távoli vezérlést az első generációs Nest Learning termosztátokon, a Google szinte minden mozdulatodat rögzíti: figyeli a kézi hőmérséklet-változtatásokat, a szobában tartózkodó embereket, sőt azt is, hogy éri-e napfény az eszközt...

MA 10:19

Az izraeli lelőhely elképesztő őskori lelete: libával párosodó nő

Tipikus eset, amikor a múlt egy egészen szokatlan részletét tárja fel egy miniatűr szobor: Izraelben egy mindössze 3,8 cm magas, égetett agyagból készült paleolitikus figurát találtak, amely egy nővel párosodó libát ábrázol...

MA 09:48

A sosem felejtők titka végre kiderült: így működik az agyuk

Vannak, akik minden arcot örökre megjegyeznek, miközben mások rendszeresen bajban vannak az ismerősök felismerésével...

MA 09:41

A mesterséges intelligencia végre magától tanul – megérkezett a LeJEPA

Az MI fejlesztésében régóta nagy kihívás, hogy a gépek hatékonyan sajátítsák el a világ működését az emberek beavatkozása nélkül...

MA 09:27

Az igazi Deadpool-élmény VR-ban: a Marvel fenegyereke a fejeden tombol

🤡 Felmerül a kérdés, mi történik, ha a Marvel legnagyobb szájhőse végre beköltözik a virtuális valóságba: a Deadpool VR a Meta Quest 3 és 3S exkluzív játéka, ami minden rajongónak ajánlott, és minden gyűlölőjét az őrületbe kergeti...

MA 09:01

A Microsoft visszaverte minden idők legnagyobb felhős DDoS-támadását

Október 24-én az Azure DDoS Protection elképesztő, 15,7 Tbps méretű, többirányú támadást hárított el, amely minden korábbi felhős DDoS-rekordot megdöntött...

MA 08:58

Az emberiség először pillantott be egy kvantumchip belsejébe

💡 A Lawrence Berkeley Nemzeti Laboratórium és a Kaliforniai Egyetem, Berkeley kutatói példátlan részletességgel szimuláltak egy kvantumchipet, új mérföldkövet állítva ezzel a következő generációs chiptechnológia fejlesztésében...