2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 09:08

Az American Express új MI-vásárlórendszere: valóban megbízható?

A pénzügyi szektor izgalma egyre nagyobb az MI-alapú vásárlások lehetőségei körül: az American Express (Amex) forradalmi rendszert fejleszt, amely lehetővé teszi, hogy MI-ügynökök – tehát digitális segítők – vásároljanak és fizessenek ügyfeleik helyett...

MA 09:01

A gigászi eBay-felvásárlás a GameStop bitcoinját is fenyegeti

A videójáték-kereskedő GameStop 55,5 milliárd dolláros (20 715 milliárd forint) ajánlatot tett az online piactér eBay felvásárlására, amivel újabb lendületet kapott a terjeszkedési törekvés...

MA 08:50

A lehetetlen kvantumanyagok, amelyek mégis léteznek

Egy amerikai kutatócsoportnak sikerült olyan különleges anyagállapotokat létrehoznia, amelyek a természetben önmaguktól nem keletkeznének...

MA 08:43

Az olcsóbb hitel felpörgeti a Hut 8 új MI-beruházását

💰 Fontos kérdés, hogy a bitcoin-bányász cégek milyen gyorsan tudnak alkalmazkodni az MI-robbanáshoz és a pénzpiaci mozgásokhoz...

MA 08:36

A NetHack még ma is életben tartja az MS-DOS-t

👻 1987 óta töretlenül fejlődik a NetHack, amely igazi különlegességként még ma is támogatja az MS-DOS-t – annak ellenére, hogy a Microsoft már húsz éve megszüntette e régi operációs rendszer támogatását...

MA 08:28

Az XRP megtorpan: megbicsaklik az árfolyam, nő a feszültség

Megint megcsúszott az XRP, ezúttal 1,40 dollár (kb. 510 HUF) alá esett nagy forgalom mellett, és egyre szűkebb sávban billeg a token, miközben mindkét oldal visszafogottan kereskedik...

MA 08:22

A műanyaghulladékból tiszta hidrogén: berobban a napfényes jövő?

Kezdetben a műanyagszennyezés és az energiaéhség két egymástól független problémának tűnt...

MA 08:16

A saját felhő titka: Nextcloud Hub otthon, ingyen

A felhőalapú együttműködés nemcsak a nagyvállalatok kiváltsága, hanem bárki számára elérhető, aki szeretné a saját adatait teljes biztonságban, mégis könnyen elérhetően tárolni...

MA 08:08

A botrány után magyarázkodik a Gearbox-főnök: túl messzire ment az MI?

😱 Fontos kérdés, hogy hol húzódik a határ az MI és a játékstúdiók mindennapi tevékenysége között...

MA 08:01

Az emberiség visszapillant: 12 ezer lenyűgöző Artemis II-fotó a Holdról

Az Artemis II legénysége tavasszal tíz felejthetetlen napon át kerülte meg a Hold túlsó oldalát, és közben alaposan dokumentálta kalandjait: több mint 12 000 fotót készítettek az út során...

MA 07:58

Az ösztrogén nem csak női hormon: áttörés a trauma memóriaromboló hatásának megértésében

Fontos kérdés, hogy miért reagál másként a férfiak és a nők agya a traumákra, és milyen szerepet játszik ebben az ösztrogén...

MA 07:50

Az utazás lassítja az öregedést: így segít a testednek

Az ismeretlen helyek felfedezése és új élmények megélése nem csupán feltölt: a legújabb kutatások szerint valóságos immunerősítőként is működik, sőt hozzájárulhat az egészséges öregedéshez...

MA 07:43

Az év legcikibb sztorija: hogyan venné meg a GameStop-vezér az eBayt?

😂 Ryan Cohen, a GameStop vezérigazgatója szinte mindenkit ledöbbentett, amikor bejelentette, hogy 56 milliárd dollárért (azaz több mint húszezer milliárd forintért) megvásárolná az eBay-t...

MA 07:36

Az ősi zöld kövek titka: négyezer éve bányásszák a Pireneusokban

Lényeges szempont, hogy a Pireneusok magaslataiban felfedezett titokzatos zöld ásvány arról tanúskodik: elődeink évszázadokon át bányatábort működtettek ott...

MA 07:22

Az Audiovector R 5 Arret: a padlón álló hangfalak művészete csúcsra járatva

Az Audiovector R 5 Arret hangfal már első pillantásra magával ragad, pedig még meg sem szólalt...

MA 07:16

Az MI-ügynökök kora: az Agent 365 hadat üzen a káosznak

Például egy fejlesztőcsapatban már olyan MI-alapú ügynökök sorakoznak a háttérben, amelyekről csak nagyon kevesen tudnak...

MA 07:08

A nagy ausztrál Steam Controller-csoda: mindenütt hiány, nálad még akad

😃 Miközben a világ szinte minden pontján rekordsebességgel elfogytak a Steam Controller készletei, Ausztráliában még bármikor le lehet csapni az áhított eszközre...

MA 06:56

A megállíthatatlan grönlandi jégtakaró: hatszoros olvadás, sokkoló rekordok

🌨 A Barcelonai Egyetem friss kutatása is rámutat, hogy Grönland jégtakarójának olvadása minden eddigi képzeletet felülmúl...

MA 06:50

Az MI-ügynökök forradalma: vége a RAG-korszaknak

⚡ Érdemes megvizsgálni, hogy a vállalati MI-ügynökök fejlődése miként teszi elkerülhetetlenné a technológiai váltást, amely a korábbi retrieveralapú megközelítés helyett egy előre összeállított, feladatspecifikus tudásréteget helyez előtérbe...

MA 06:43

Az arginin hozhatja el az áttörést az Alzheimer-kór kezelésében

Ez a jelenség jól illusztrálható azzal, hogy egy egyszerű, vény nélkül kapható aminosav, az arginin, váratlanul erős védelmet nyújthat az Alzheimer-kór ellen...

MA 06:36

Az Atlanti-óceán luxushajóján halálos vírus tombol

Az Atlanti-óceánon közlekedő MV Hondius nevű luxushajó fedélzetén felütötte a fejét egy ritka és veszélyes fertőzés, amely már három halálos áldozatot követelt, és további utasokat is kezelés alatt tartanak...

MA 06:29

Az új Steam Controllerrel 99 ezret fektetsz, 300-at kaszálsz

💳 Na most kapaszkodj, mert mindössze harminc perc alatt elfogyott a Valve első Steam Controller-készlete...

MA 06:22

Vége az aranyláznak? Megtorpant a Bitcoin 80 ezernél

💸 Az elmúlt napokban a Bitcoin többször is nekifutott a 80 000 dolláros (kb...

MA 06:05

Történelmi események a mai napon (Május 5.)

Ma olyan mérföldköveket idézünk fel, mint Napoleon halála és Garibaldi indulása, amelyek átformálták Európa történetét...

hétfő 16:12

A Coinbase új DFlow-trükkje felpörgeti a Solana-kereskedést

A Coinbase világa eddig sem volt unalmas, de most egy új szintre lépett: integrálták a DFlow protokollt, így már a Solana blokkláncon is lehet közvetlenül spot- és predikciós piacokon kereskedni...

hétfő 16:02

Az ördög kapuja elcsendesedik – lehet, hogy ez rossz jel

😈 Erre utal többek között az, hogy a világ egyik legrejtélyesebb látványossága, a Darvaza-kráter lángjai szemmel láthatóan gyengülnek...

hétfő 15:56

A Szcientológia célkeresztben: tinik miatt világszerte zárnak be központok?

👀 Néhány nap alatt szinte felborult a világrend, ahogy fiatalok – legkülönfélébb jelmezekben – megrohamozták a Szcientológia központjait, New Yorktól Los Angelesig, szinte minden jelentősebb városban...

hétfő 15:35

Az iráni rakétatámadás híre megrengette a bitcoin árfolyamát

A bitcoin rövid időre átlépte a 80 000 dolláros (kb. 28,8 millió forint) álomhatárt, ám ezt követően 79 000 dollár (kb...

hétfő 15:23

Az MI megelőzi az adathalászokat – így védekezz a legújabb trükkök ellen

Nemcsak az e-mail-fiók veszélyes terep többé: már a naptármeghívók és az olyan együttműködési platformok, mint a Microsoft Teams, komolyan ki vannak téve az adathalászok támadásainak...