MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 19:17

Az izzadság beszél: közeleg az egészségügy új forradalma

A legújabb kutatások szerint az izzadságunk már jóval a tünetek megjelenése előtt árulkodik az egészségünkről...

MA 18:49

A 45 napos káosz: zsarolóvírus térdre kényszerítette az Askult

🔒 Japán egyik legismertebb online kereskedője, az Askul, csak részlegesen tudta újraindítani szolgáltatásait 45 nappal azután, hogy áldozatául esett egy súlyos zsarolóvírus-támadásnak...

MA 18:33

A mesterséges intelligencia még messze van attól, hogy kiváltsa a pénzügyi tanácsadót

🤑 Az utóbbi időben egyre többen fordulnak mesterséges intelligenciához pénzügyeik intézésében. Az olyan rendszerek, mint a ChatGPT vagy a Gemini, különösen népszerűek a fiatalabb generációk körében, akik nemcsak spórolási tippekért, hanem bonyolultabb pénzügyi döntések meghozatalához is igénybe veszik az MI segítségét...

MA 18:18

Az Aisuru botnet sorra döntötte a DDoS-rekordokat

💥 Az Aisuru botnet az elmúlt három hónapban több mint 1300 elosztott szolgáltatásmegtagadási (DDoS) támadást indított, melyek közül a legerősebb elérte a 29,7 terabit/s csúcsot, ezzel új világrekordot állított fel...

MA 17:33

Az idei tél első nagy vihara letarolja a Keletet

⛈ Egy gyorsan erősödő ciklon a keleti partvidék mentén alaposan felborította az időjárást, még ha a bombaciklonstátuszt végül el is kerülte...

MA 17:17

Az új szenzor azonnal elárulja, mennyire friss a hal

A friss hal kiválasztásához legtöbben a hal szemét vagy kopoltyúját nézik, esetleg megszagolják a halat...

MA 17:02

Az antibiotikumok titokban újraprogramozzák az immunrendszert

💉 A bélmikrobák nemcsak az emésztésben segítenek, hanem egészségünkre is komoly hatást gyakorolnak – még akkor is, ha ezt nem mindig értjük pontosan, különösen, ha vényköteles gyógyszerek is hatnak rájuk...

MA 16:33

A komplex ETF-ek brutálisan megégethetik a befektetőket

Az utóbbi években egyre több összetett ETF-et dobtak piacra, beleértve az egyedi részvényekre épülő vagy inverz ETF-eket is...

MA 16:02

A halványuló KIC 5623923 rejtélyes égi tánca

⭐ A NASA Kepler űrtávcsövével kínai csillagászok megfigyeltek egy különleges kettőscsillag-rendszert, a KIC 5623923 jelűt...

MA 15:49

Az Indiegogo rákapcsol: végre érkeznek a csomagok

📦 Az Indiegogo új, Express Crowdfunding nevű kampányformát indít, amelynek lényege, hogy az alkotók már a kampány közben is elkezdhetik kiszállítani a termékeket, nem kell megvárniuk a kampány végét...

MA 15:33

A ChatGPT leállt, a világ felhördült: beszélgetések tűntek el

Világszerte leállt a ChatGPT, a felhasználók pedig hiába próbálnak hozzáférni a beszélgetésekhez, csak hibaüzeneteket kapnak...

MA 15:18

Az AWS MI-forradalma: friss áttörések és merész újítások

Az AWS éves re:Invent konferenciája ismét szélsebesen indult, és rögtön az első napon bejelentések tucatjaival lepte meg a technológiai világot...

MA 15:01

A naplementében startolt a SpaceX újabb Starlink-missziója

🌕 A SpaceX december 2-án ismét lenyűgöző látványosságot nyújtott: a Starlink 6-95 küldetésen 29 új internetszatellitet juttatott Föld körüli pályára a Cape Canaveral űrközpontból...

MA 14:34

Az MI-háború kiéleződik: pánikban az OpenAI a Google miatt

Sam Altman, az OpenAI vezérigazgatója vészhelyzetet hirdetett a cégnél, miután a Google Gemini MI-je mindössze három hónap alatt 200 millió felhasználót szerzett...

MA 14:01

Az iPhone 17-nek köszönhetően szárnyalnak az Apple-eladások 2025-ben

Az Apple újabb rekordhoz közelít: 2025-ben várhatóan 247,4 millió iPhone-t szállít le világszerte, ami 6%-os növekedés az előző évhez képest...

MA 13:49

Az indiai reptereken már a GPS-jeleket is manipulálják

✈ India nyolc legnagyobb repülőterén derült fény GPS-hamisításra és jelzavarásra, amelyeket helyi hatóságok fedeztek fel...

MA 13:33

A katalízis új kora: elég lehet egyetlen atom

⚡ A modern társadalom szinte minden iparágában kulcsszerepet töltenek be a katalizátorok, legyen szó fémiparról vagy gyógyszergyártásról...

MA 13:17

A Quad9 végleg lekapcsolja a veterán HTTP/1.1-et

2025. december 15-től a Quad9 megszünteti a DNS-over-HTTPS (DoH) támogatását HTTP/1...

MA 13:01

Az Amazon is ringbe száll az MI-gyárakért

Az Amazon legújabb dobása, az AI Factory, új távlatokat nyit a vállalatok és kormányok számára: mostantól saját adatközpontjukban működtethetik a legerősebb MI-rendszereket...