2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 12:01

A mesterséges intelligencia már lapot szerkeszt – Mi lesz velünk?

Egy újabb botrányos MI-megoldás jelent meg: most már komplett újságot képesek előállítani, minimális emberi beavatkozással...

MA 11:57

Az óceán mélye még mindig rejtély: szinte semmit sem tudunk

🐚 A Sulawesi-sziget melletti mélységekben két kupolás tengeralattjáró ereszkedik alá Indonézia partjainál, akár 1 000 méter mélyre is...

MA 11:37

A szerverhűtés űrkorszakba lép

Egy kaliforniai startup, a Karman Industries merőben új módszerrel hűti a szerverközpontokat: a SpaceX rakétamotorjainak technológiáját vetette be, hogy kevesebb árammal, víz nélkül, ráadásul sokkal kisebb helyigénnyel működjön a rendszer...

MA 11:20

A sima séta tényleg felér egy edzéssel?

A modern életmódban egyre többen keresik az egyszerű, de hatékony mozgásformákat...

MA 10:59

Az MI nem érti az ügyfeleket, az intenció‑első megközelítés viszont igen

Hihetetlen, de mégis igaz, hogy a hagyományos beszélgető MI-rendszerek gyakran félreértik a felhasználók szándékait...

MA 10:50

A nettó zéró illúziója óriásfák nélkül – tévúton a szabályozás

🌳 A világ vezetői már 2015-ben elköteleződtek a nettó zéró kibocsátás mellett, azonban a cél közel sem olyan könnyen elérhető, mint sok ország remélte – még ott sem, ahol hatalmas erdőterületek vannak, amelyek elvileg elnyelik a szén-dioxidot, ha megállítják az erdőirtást...

MA 10:41

A pénztárcabarát Tenda SE108: 2,5 GbE csendben és könnyedén

A Tenda SE108 egy 8 portos, ventilátor nélküli 2.5GbE switch, ami a megszokott házban érkezik, szinte ikertestvére a BrosTrend S3-nak...

MA 10:33

Az Outlook ismét összeomlik? Itt a Microsoft újabb vészfrissítése

Legújabb vészfrissítését adta ki a Microsoft a Windows 11-hez, miután ismét kritikus hibákat találtak az Outlookban és a felhőben tárolt fájlok kezelésében...

MA 10:25

A pusztító téli vihar térdre kényszerítette Amerikát

🌨 Az Egyesült Államokon végigsöprő rendkívüli téli vihar legalább 10 ember halálát okozta, miközben az utazók, a légiközlekedés és háztartások tömegei küzdenek a rendkívüli kihívásokkal...

MA 10:18

Az autók titkai kiszivárogtak: 76 nulladik napi sebezhetőség

A Pwn2Own Automotive 2026 nevű versenyen minden eddiginél súlyosabb biztonsági hiányosságokat lepleztek le a modern járműtechnológiákban...

MA 10:02

A madarak riasztó fogyása nagy átalakulást jelez Norvégiában

🐦 Sokáig a norvég mezőgazdasági táj madárvilága változatlan, sőt gazdag volt, ám az elmúlt 25 évben drámai visszaesés tapasztalható...

MA 09:58

A davosi csúcson a valódi főszereplő: Kína növekvő befolyása

Miközben a világ vezetői Davosban a rivaldafényben vitatták meg a globális gazdaság kihívásait, Kína csendben, de határozottan erősítette pozícióját, kihasználva az USA és szövetségesei közötti növekvő feszültségeket...

MA 09:51

Az MI-forradalom új korszaka: amikor ember és gép együtt dönt

Az MI-rendszerek rohamos fejlődése mellett egyre hangsúlyosabbá válik az igény, hogy ne csak feladatokat oldjanak meg, hanem valódi csapatmunkára is alkalmasak legyenek...

MA 09:42

Az arany szárnyal, a bitcoin csak egy helyben toporog

Az arany ára új rekordot döntött, átlépte az 5 000 dolláros (kb...

MA 09:34

Az „Isten szeme” őrzi az élet születésének titkát

👀 Az Univerzum egyik legszebb látványát örökítette meg a James Webb űrteleszkóp, amikor a Helix-köd (NGC 7293, Caldwell 63), más néven „Isten szeme” vagy „Szauron szeme” belsejébe pillantott...

MA 09:28

Az fogfehérítő csíkok nagy tesztje: melyik a nyerő 2026-ban?

Érdemes megvizsgálni, hogy egy vakítóan fehér mosolyért tényleg szükséges-e kisebb vagyont hagyni egy fogorvosi rendelőben, vagy elég az otthoni fogfehérítő csíkokat használni, amelyek lényegesen olcsóbbak és bárki számára elérhetők...

MA 09:17

Az OpenAI végre helyretette a ChatGPT ideiglenes csevegését

💬 A ChatGPT ideiglenes csevegés funkciója jelentős frissítést kap. A fejlesztésnek köszönhetően mostantól akkor is megmaradhatnak a személyes beállításaid és stílusod, ha ideiglenes módban csevegsz, miközben ezek a beszélgetések továbbra sem befolyásolják a fiókodat...

MA 09:10

Az új Sony LinkBuds Clip menő, de indokolatlanul drága

📢 A Sony LinkBuds Clip az első csíptethető fülhallgató a gyártó kínálatában...

MA 09:03

Az OceanXplorer: a tenger titkainak luxuslaboratóriuma

🚤 Többek között Indonézia partjai előtt kutatta a mélytengeri hegyeket idén januárban az OceanXplorer, az OceanX milliárdosok által támogatott nonprofit szervezetének csúcstechnológiás kutatóhajója...

MA 08:57

A bölcsődei közösség erősíti a babák bélflóráját

👶 Érdemes megvizsgálni, milyen szerepet játszik az óvodai közösség a csecsemők egészségében: ma már bizonyított, hogy a közös játék és a szociális interakciók hatására a babák nemcsak kórokozókat, hanem jó baktériumokat is átadnak egymásnak...

MA 08:49

Az XRP árfolyama csapdába esett – meddig húzódik a patthelyzet?

🔴 Az XRP árfolyama közel 4%-ot esett, miután a bitcoin árfolyama 32 millió forint (88 000 USD) alá csúszott vasárnap, ezzel újra a figyelem középpontjába került az 1,88 dollár (kb...

MA 08:41

Az újabb bitcoinzuhanás a kormányzati leállás és a Fed-döntés árnyékában

Vasárnap a bitcoin 88 000 dollár (~32,2 millió forint) alá csúszott, mivel a piacokat a várható amerikai kamatdöntés és a gyorsan közeledő nagy techcégek gyorsjelentései tartják feszültségben...

MA 08:34

Az ázsiai börzék idegesen hullámoznak a fokozódó geopolitikai feszültségek közepette

🚧 A hétfői kereskedésben az ázsiai–csendes-óceáni régió tőzsdéi vegyesen teljesítettek, mivel a befektetőket továbbra is a geopolitikai aggodalmak tartják éberen...

MA 08:25

Az MI tényleg kiszabadítja a robotokat a gyárakból?

Az ipari robotok régóta megbízhatóan működnek zárt, kiszámítható gyári környezetben, de ha ezen kívül kell helytállniuk, gyorsan kudarcot vallanak...

MA 08:17

Az arany ára történelmi csúcson: soha nem volt drágább

💎 Az arany ára hétfőn meghaladta az unciánkénti 5 100 dolláros (kb...

MA 08:03

A horizonton derül fény az óriáshold rejtélyére

🌕 Amikor a telihold épp felemelkedik a horizonton, gyakran megdöbbentően nagynak tűnik...

MA 07:58

A csendes járvány: így fékezhetjük meg az antibiotikum-rezisztenciát

Ami kezdetben ártalmatlannak tűnt, mára a modern orvoslás egyik legnagyobb fenyegetésévé vált: az antibiotikum-rezisztencia nemcsak korábban egyszerűen kezelhető fertőzéseket tesz újra halálossá, de veszélyezteti a műtéteket, a kemoterápiát és a szervátültetéseket is...

MA 07:49

Az éjszaka közepén lezuhant egy magángép Maine-ben

🛩 Egy nyolc főt szállító üzleti repülőgép vasárnap este felszállás közben zuhant le a Maine állambeli Bangor Nemzetközi Repülőtéren...

MA 07:41

Az új Solana-korszak: a csillogás után jön a pénzügyi komolyság

Solana mostanában jóval visszafogottabban működik, mint amikor a mémcoinok pörgették fel az árfolyamokat – és talán pont ez a lényeg...