2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 16:02

Kudarcot vallott az orosz kibertámadás a lengyel áramhálózat ellen

⚡ Lengyelország villamosenergia-hálózata elleni kibertámadást hiúsítottak meg 2025. december végén. A támadás mögött az orosz állam által támogatott, hírhedt Sandworm nevű hackercsoport állt, amely egy új, pusztító törlővírust, a DynoWipert próbálta bevetni...

MA 15:56

A Sparkli MI-alkalmazás játékosan turbózza fel a gyerekek tanulását

Nemrég komoly figyelmet kapott a Sparkli nevű, MI-alapú oktatási alkalmazás, amelynek három egykori Google-alkalmazott áll a hátterében...

MA 15:38

Az optikai tranzisztorok feltámaszthatják a Moore-törvényt

💡 Neurophos, a texasi MI-chipcég új mércét akar állítani a szuperszámítástechnikában azzal, hogy optikai processzorokat fejleszt, amelyek teljesítménye többszöröse a mai legmodernebb grafikus kártyák teljesítményének – mindezt jóval kisebb energiafelhasználás mellett...

MA 15:19

Az észak-koreai hackerek MI-vel vadásznak a blokklánc-fejlesztőkre

Az észak-koreai Konni (Opal Sleet, TA406) hackercsoport MI által generált, erősen titkosított PowerShell-kártevővel célozza meg a blokklánc-szektor mérnökeit és fejlesztőit...

MA 15:02

Miért nem hódította meg a QD‑OLED már minden nappalit?

Az OLED-technológia az utóbbi években teljesen átalakította a tévépiacot. Az önállóan világító OLED-pixeleknek köszönhetően tökéletes feketét, élénk színeket és erős kontrasztot kapunk...

MA 14:40

A vegán házhozszállítás titkos receptje: 2026 legjobbjai

Vegánként vagy növényi étrendet követőként óriási kihívást jelenthet ízletes, változatos és egészséges készételeket vagy főzős csomagokat találni...

MA 14:19

Az új génkincs lehet a szója túlélésének kulcsa

🥑 A világ szójatermelőit csendes, de komoly ellenség tizedeli: a szója-cisztaképző fonálféreg, amely a gyökereket támadva rontja a terméshozamot, évente komoly veszteséget okozva a gazdáknak...

MA 14:01

A Gmail spamszűrője bedőlt: elárasztanak a promóciók

Az elmúlt napokban jelentősen megnőtt a promóciós e-mailek száma a Gmail-felhasználók beérkező levelei között...

MA 13:55

Tényleg veszélyesek a gyerekekre az önvezető taxik?

Austinban ismét botrányt kavartak a Waymo önvezető autói: a robotaxik többször szabálytalanul előzték meg a diákokat szállító iskolabuszokat...

MA 13:37

Az agyevő amőbák: a következő globális rémálom

Világszerte egyre nagyobb aggodalmat keltenek a szabadon élő amőbák, amelyek a kutatók szerint egyre komolyabb egészségügyi kockázatot jelentenek...

MA 13:20

Az MI-óriás, amelyik még az igazán nagy áttörés előtt áll

🤖 Felmerül a kérdés, hogy kinek érdemes most a technológiai tőzsdéken kutakodnia, amikor a kvantumszámítógépek és a mesterséges intelligencia versenye kiélezettebb, mint valaha...

MA 12:55

A szenzáció: az első európai őselefántcsont-szerszám

🔨 Egy körülbelül 480 ezer éves, háromszögletű eszközre bukkantak az Egyesült Királyság területén, amelyet egy ismeretlen archaikus emberfajta őselefánt csontjából készített...

MA 12:37

Az OpenAI új MI-je gyanús forrásokkal támasztja alá állításait

Az OpenAI nemrég nagy csinnadrattával mutatta be a GPT-5.2 modellt, amelyet szakmai felhasználásra fejlesztett, de a Guardian tesztjei kellemetlen meglepetést hoztak: az MI-rendszer időnként a Grokipediára hivatkozott forrásként, amely az Elon Musk-féle xAI által létrehozott, MI-alapú online enciklopédia...

MA 12:20

Az ultraibolya lila kristály áttörést hoz a mély-UV lézereknél

A mély-ultraibolya (DUV, 200 nm alatti) lézerek kulcsfontosságúak a modern tudományos kutatásban és az ipari gyártásban is, például anyagelemzésben vagy litográfiában...

APP
MA 07:11

APPok, Amik Ingyenesek MA, 1/25

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Master 3D Color...

MA 06:05

Történelmi események a mai napon (Január 25.)

Share on Social Media x facebookwhatsapptelegram

szombat 17:38

Az MI váratlan arca: erre nem készített fel a kézikönyv

🤔 Az MI-vel foglalkozó kutatók újabb meghökkentő felfedezésre jutottak: a nagy nyelvi modellek spontán, előzetes utasítások nélkül is képesek önálló személyiséget kialakítani...

szombat 17:20

Egy óriási fekete lyuk átírja a galaxisokról alkotott képet

🔵 A Hawaii-n működő W. M. Keck Obszervatórium, a James Webb Űrtávcső és a Very Large Array rádióteleszkóp együttes megfigyelései során sikerült azonosítani egy hihetetlenül nagy, „imbolygó” fekete lyuk-kilövellést, amelynek átmérője egy teljes galaxis szélességével vetekszik...

szombat 17:01

Az átváltozó polimerbőr: színt vált víz hatására

A Stanford Egyetem kutatói új polimert fejlesztettek, amely szabad szemmel látható mintákat és színeket hoz létre, ha vízzel érintkezik...

szombat 16:56

Az Apple legújabb MI-kütyüje: tényleg senkinek sem kell?

🤔 Az Apple egy teljesen új, viselhető MI-eszköz kifejlesztésén dolgozik, amely akár 2027-ben piacra kerülhet...

szombat 16:37

Az okoseszközöd már elavult? Nyugi, így hozd ki belőle a legtöbbet!

Az okoseszközök világa gyorsan változik, és amit évekig használtál, egy nap elveszítheti a gyártói támogatást...

szombat 16:19

A bálnavadászat titkai: ősi szigonyok írják át a múltat

🐳 Első pillantásra úgy tűnt, a bálnavadászat csak az északi, fagyos vizek közösségeit jellemezte...

szombat 16:01

A félvállról vett VMware-sebezhetőségek még mindig lecsapnak

⚠ A VMware vCenter Server kritikus, több mint egy éve javított sérülékenysége ismét aktív támadások célpontja lett...

szombat 15:55

Az Nvidia Arm‑os laptopjai fenekestül felforgatják a piacot

⚡ Végre megtörni látszik az Intel és az AMD uralma a Windows laptopok világában: az Nvidia idén tavasszal akár nyolc Arm-alapú, Windowst futtató noteszgéppel készül a piacra lépni...

szombat 15:39

Az USA kiberbiztonsági hivatala váratlanul távol marad az év legnagyobb IT-konferenciájától

🔒 Az amerikai Kiberbiztonsági és Infrastruktúra-biztonsági Ügynökség (CISA) nem vesz részt az idei RSA Conference-en, amelyet márciusban rendeznek San Franciscóban...

szombat 15:19

Az ipari rendszerek Achilles-sarka: a telnetd sebezhetőség

Már 11 éve lappang egy rendkívül súlyos sebezhetőség a GNU InetUtils telnetd rendszerében, amit hackerek nemrég elkezdtek aktívan kihasználni...

szombat 14:55

Az okosórák négyszer több szívritmuszavart szűrnek ki

Egy friss klinikai vizsgálat szerint a stroke szempontjából magas kockázatú, Apple Watchot viselő időseknél négyszer gyakrabban észleltek kóros szívritmuszavart, mint azoknál, akik csak hagyományos orvosi ellátásban részesültek...

szombat 14:38

Az otthonod téli védelme: erre figyelj, mielőtt késő!

A tél nemcsak a meghittséget hozza el, hanem a veszélyeket is: a fagyott csövek, kéménytüzek, illetve a fűtési rendszer hibái könnyen súlyos károkat okozhatnak, amelyek akár több százezres javítási költségekkel is járhatnak...

szombat 14:19

Az új aranybánya: a ShinyHunters tarol az SSO-fiókokon

Hihetetlen, de mégis igaz, hogy a hírhedt ShinyHunters zsarolócsapat ismét lecsapott, ezúttal vállalati SSO-fiókok feltörésével az Okta, a Microsoft és a Google rendszereiben...