2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 10:01

Az Anthropic új MI-je miatt pánikolnak a bankok

A Mythos névre keresztelt MI-modell bármelyik pénzintézet rémálma lehet: fejlett programozási képességeinek köszönhetően nemcsak felismeri a pénzügyi rendszerek gyenge pontjait, hanem meg is mutatja, hogyan lehet őket kihasználni...

MA 09:58

Az Apple élén váltás: Tim Cook helyét átveszi John Ternus

🚀 Az Apple jelentős bejelentést tett: szeptember 1-től John Ternus veszi át a vezérigazgatói posztot, Tim Cook pedig az igazgatótanács ügyvezető elnöke lesz...

MA 09:43

Az Apple következő vezére: ki váltja Tim Cookot?

Sorsfordító pillanat következik az Apple életében: szeptember 1-jén Tim Cook hivatalosan lemond vezérigazgatói posztjáról...

MA 09:36

A Google oldalsávjába érkezik a Gemini: így szörföz Ázsia

Na most kapaszkodj, mert a Google végre elhozta a Geminit a Chrome böngészőbe Ázsiában és a csendes-óceáni térségben is...

MA 09:22

Az új űrruha hiánya veszélybe sodorhatja a 2028-as holdraszállást

🚀 Az űrhajósok visszatérése a Holdra ismét veszélybe került: a NASA jelenleg nem rendelkezik megfelelő szkafanderrel, a fejlesztés pedig komoly csúszásban van...

MA 09:16

Az élet titkos receptje: baktériumok átírják az evolúció szabályait

🧠 A Föld első életformái, a kékeszöld baktériumok évmilliárdokkal ezelőtt nemcsak az oxigéndús légkör kialakításában voltak úttörők, hanem most úgy tűnik, az evolúció kreativitásáról is új történetet mesélnek...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/21

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Sight Words: Dolch Coach (iPhone/iPad)Ez a játék a Dolch Sight Words mind az öt szintjére épül, elősegítve az angol szavak gyors és pontos felismerését...

MA 09:11

A kvantumtámadások korára készül az XRP Ledger

Első pillantásra úgy tűnhetett, hogy a blokkláncok szinte feltörhetetlen biztonsága egy ideig még nem kérdőjelezhető meg, azonban a közelgő kvantumszámítógépes forradalom mindent megváltoztat...

MA 09:01

A Seiko USA-t feltörték: ügyféladatok kerültek a hackerekhez

🔒 Valami egészen váratlan fogadta a Seiko USA honlapjának látogatóit a hétvégén: egy „HACKED” feliratú oldal jelent meg, amely a megszokott sajtószoba tartalma helyett durva üzenettel és ultimátummal várta a mit sem sejtő nézelődőket...

MA 08:50

A kaliforniai túlélő méhek új esélyt adnak a beporzóknak

Vizsgálatok szerint egy dél-kaliforniai hibrid méhfaj természetes védelmet fejlesztett ki az egyik leghalálosabb méhpusztítóval szemben...

MA 08:43

Az űrbiznisz befuccsolt: csúfosan bukott a Blue Origin rakétája

A Blue Origin New Glenn rakétájának harmadik útját újabb mérföldkőnek szánták a kereskedelmi űrkilövések piacán, de a bemutatkozás nem alakult álomszerűen...

MA 08:36

A nagy rengés küszöbén? Japán újabb földrengéstől tart

🌈 Április 20-án, helyi idő szerint délután 4:53-kor 7,7-es erősségű földrengés rázta meg Japán legnagyobb szigetének, Honshūnak az északkeleti partvidékét...

MA 08:29

A Marsot ötven éve kísértő árnyék titka

👽 Az egyik marsi kráterben több mint fél évszázada egy titokzatos, sötét folt terjeszkedik, amelynek eredetére és növekedésére máig nincs egyértelmű magyarázat...

MA 08:22

Az észak-koreai hekkerek a közpénzekre hajtanak: ismét célpont a DeFi

Több mint 180 milliárd forintnyi kriptót szivattyúztak ki két DeFi-rendszerből, alig három hét alatt...

MA 08:15

Az Arbitrum 71 millió dollárt fagyasztott be a Kelp DAO-botrány után

Az Arbitrum biztonsági tanácsa váratlanul lépett: 30 766 ETH-t, vagyis körülbelül 71 millió dollárt (26 milliárd forintot) fagyasztott be, miután hackerek szombaton 292 millió dolláros (108 milliárd forintos) kárt okoztak a Kelp DAO hídján...

MA 07:50

A pofonegyszerű trükk, ami forradalmasíthatja a génterápiát

🚀 A lipid nanopartikulumok (LNP) az elmúlt években robbantak be a köztudatba a COVID–19 elleni mRNS-vakcinák révén...

MA 07:43

A Gentlemen botnetekkel indít újabb ransomware-hullámot

🚨 Egyre kiterjedtebb botnethálózatot használnak a Gentlemen zsarolóvírus mögött álló szervezett bűnözői csoportok a legújabb támadási hullámokban: a SystemBC nevű proxy kártevővel világszerte több mint 1 570 vállalati rendszert sikerült megfertőzniük...

MA 07:36

Az új trükk, amivel a termeszek saját sírjukat ássák

Az UC Riverside kutatóinak sikerült jelentősen növelniük a nyugati szárazfa-termesz irtásának hatékonyságát, méghozzá egy váratlanul egyszerű módszerrel...

MA 07:29

A Föld örökre bevésődik az űrhajósok agyába

Ez a jelenség jól illusztrálható azzal, hogy az űrhajósok több hónapnyi súlytalanságban töltött idő után is úgy fogják meg a tárgyakat, mintha azok ugyanolyan nehezek lennének, mint a Földön...

MA 07:22

Az Amazon beszáll az MI-versenybe: dollármilliárdok az Anthropicnak

🚀 Komolyan mondom: az Amazon tényleg beáll a mesterségesintelligencia-őrület élére! Most újabb, közel 1 800 milliárd forintos, azaz akár 25 milliárd dolláros befektetést önt az Anthropic nevű MI-cégbe — és ez még csak a harmadik masszív pénzeső eddig...

MA 07:15

Az Apple kínai App Store-ját ellepték a kriptotolvaj appok

Kínában rejtett támadás érte az Apple App Store-t: 26 hamis alkalmazás jelent meg, amelyek népszerű kriptopénztárcáknak, például a MetaMasknak, a Coinbase-nek, a Trust Walletnek és a OneKeynek álcázták magukat...

MA 07:09

Az Anthropic titokban módosítja a böngészőidet a Claude Desktop telepítésekor

🕵 Az Anthropic Claude Desktop alkalmazása egy eddig példa nélküli, rejtett trükköt alkalmaz a számítógépeken: azonnal telepít egy engedélyező fájlt, amely még olyan böngészőkhöz is beállításokat hoz létre, amelyek nincsenek is telepítve az eszközön...

MA 07:01

Az észak-koreai hackerek 105 milliárdos káoszt szabadítottak el a KelpDAO-nál

💥 Április 18-án közel 105 milliárd forintnak megfelelő, 293 millió dollár értékű kriptoeszközt loptak el a KelpDAO-ból...

MA 06:57

A Google új csodája: kérésre az arcodat is megszépíti

💬 Ha eddig nem mertél megosztani egy képet sem a bőrhibáid miatt, mostantól ez sem lehet akadály...

MA 06:50

A vég kezdete: lekapcsolták a Voyager–1 egyik műszerét

Majdnem ötven éve indult útnak az ikonikus Voyager 1 űrszonda, amely a külső Naprendszer felfedezésére indult, ma már azonban élete végső szakaszához érkezett...

MA 06:43

Az elfeledett vitamin, ami leszámolhat a rákos sejtekkel

A tumorsejtek hírhedtek arról, hogy különösen nagy szükségük van a glutamin nevű aminosavra, azonban amikor kifogynak belőle, sokuk képes más tápanyagokra átállni...

MA 06:36

A legújabb csapda: segítségkérésnek álcázott támadás a Microsoft Teamsben

⚠ Érdekes felvetés, hogy a hackerek egyre kifinomultabban használják a Microsoft Teams rendszert, hogy bejussanak vállalati rendszerekbe...

MA 06:22

A Gemini végre megérkezett a Chrome-ba az ázsiai–csendes-óceáni térségben

🌎 Megérkezett egy új, menő Chrome-oldalsáv, aminek köszönhetően mostantól bármelyik böngészőfülön cseveghetsz a Gemini-vel – és igen, használhatod asztali gépen vagy akár iPhone-odon is, szinte mindenhol ezen a kontinensen...

MA 06:15

A világegyetem eddigi legnagyobb 3D-térképe: robotkarok, sötét energia, galaxisok

Öt évnyi munka eredményeként csillagászok megalkották az eddigi legnagyobb, nagy felbontású 3D térképet az univerzumról, amelyben több tízmillió galaxist követtek nyomon...