2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

szombat 17:38

Az MI váratlan arca: erre nem készített fel a kézikönyv

🤔 Az MI-vel foglalkozó kutatók újabb meghökkentő felfedezésre jutottak: a nagy nyelvi modellek spontán, előzetes utasítások nélkül is képesek önálló személyiséget kialakítani...

szombat 17:20

Egy óriási fekete lyuk átírja a galaxisokról alkotott képet

🔵 A Hawaii-n működő W. M. Keck Obszervatórium, a James Webb Űrtávcső és a Very Large Array rádióteleszkóp együttes megfigyelései során sikerült azonosítani egy hihetetlenül nagy, „imbolygó” fekete lyuk-kilövellést, amelynek átmérője egy teljes galaxis szélességével vetekszik...

szombat 17:01

Az átváltozó polimerbőr: színt vált víz hatására

A Stanford Egyetem kutatói új polimert fejlesztettek, amely szabad szemmel látható mintákat és színeket hoz létre, ha vízzel érintkezik...

szombat 16:56

Az Apple legújabb MI-kütyüje: tényleg senkinek sem kell?

🤔 Az Apple egy teljesen új, viselhető MI-eszköz kifejlesztésén dolgozik, amely akár 2027-ben piacra kerülhet...

szombat 16:37

Az okoseszközöd már elavult? Nyugi, így hozd ki belőle a legtöbbet!

Az okoseszközök világa gyorsan változik, és amit évekig használtál, egy nap elveszítheti a gyártói támogatást...

szombat 16:19

A bálnavadászat titkai: ősi szigonyok írják át a múltat

🐳 Első pillantásra úgy tűnt, a bálnavadászat csak az északi, fagyos vizek közösségeit jellemezte...

szombat 16:01

A félvállról vett VMware-sebezhetőségek még mindig lecsapnak

⚠ A VMware vCenter Server kritikus, több mint egy éve javított sérülékenysége ismét aktív támadások célpontja lett...

szombat 15:55

Az Nvidia Arm‑os laptopjai fenekestül felforgatják a piacot

⚡ Végre megtörni látszik az Intel és az AMD uralma a Windows laptopok világában: az Nvidia idén tavasszal akár nyolc Arm-alapú, Windowst futtató noteszgéppel készül a piacra lépni...

szombat 15:39

Az USA kiberbiztonsági hivatala váratlanul távol marad az év legnagyobb IT-konferenciájától

🔒 Az amerikai Kiberbiztonsági és Infrastruktúra-biztonsági Ügynökség (CISA) nem vesz részt az idei RSA Conference-en, amelyet márciusban rendeznek San Franciscóban...

szombat 15:19

Az ipari rendszerek Achilles-sarka: a telnetd sebezhetőség

Már 11 éve lappang egy rendkívül súlyos sebezhetőség a GNU InetUtils telnetd rendszerében, amit hackerek nemrég elkezdtek aktívan kihasználni...

szombat 14:55

Az okosórák négyszer több szívritmuszavart szűrnek ki

Egy friss klinikai vizsgálat szerint a stroke szempontjából magas kockázatú, Apple Watchot viselő időseknél négyszer gyakrabban észleltek kóros szívritmuszavart, mint azoknál, akik csak hagyományos orvosi ellátásban részesültek...

szombat 14:38

Az otthonod téli védelme: erre figyelj, mielőtt késő!

A tél nemcsak a meghittséget hozza el, hanem a veszélyeket is: a fagyott csövek, kéménytüzek, illetve a fűtési rendszer hibái könnyen súlyos károkat okozhatnak, amelyek akár több százezres javítási költségekkel is járhatnak...

szombat 14:19

Az új aranybánya: a ShinyHunters tarol az SSO-fiókokon

Hihetetlen, de mégis igaz, hogy a hírhedt ShinyHunters zsarolócsapat ismét lecsapott, ezúttal vállalati SSO-fiókok feltörésével az Okta, a Microsoft és a Google rendszereiben...

szombat 13:57

Az egyik leggyorsabban növekvő fekete lyukat fedezték fel az űrben

Néhány fekete lyuk szabálytalanul viselkedik: most a csillagászok egy olyan távoli kvazárt fedeztek fel, amelynek központi fekete lyuka minden eddigi elméletet meghazudtolva őrült tempóban falja fel a környező anyagot...

szombat 13:37

A davosi csúcson MI-láz és geopolitika: erre fókuszálnak a techvezérek

💻 A világ legnagyobb technológiai cégeinek vezetői ismét Davosban találkoztak a Világgazdasági Fórumon, ahol az idei év legégetőbb témái kerültek terítékre...

szombat 13:01

A Chromebookon nevelkedett diákokból lesznek a Google leghűségesebb vevői?

💻 A Google belső dokumentumai szerint már az iskolában elkezdődhet a márkahűség kialakítása, ha a diákokat idejekorán bevezetik a vállalat ökoszisztémájába...

szombat 12:55

Vége a lazaságnak az amerikai reptereken: jönnek az új azonosítási díjak

Február 1-jétől az amerikai belföldi járatokra szigorúbb beléptetési feltételekre kell számítani, így akik nem rendelkeznek Real ID-vel vagy más elfogadott személyazonosítóval, akár 45 dolláros (kb...

szombat 12:38

Az új, színes rádiókép felforgatja, amit a Tejútrendszerről tudtunk

Lenyűgöző, minden eddigit felülmúló rádiófrekvenciás felvételt készítettek a Tejútrendszerről, amely nemcsak csillagszületéseket, hanem szupernóvák maradványait és gigászi galaktikus szerkezeteket is láthatóvá tesz...

szombat 12:20

Az emberformájú robotok kora: társaink vagy fenyegetés?

🤖 Érdemes megvizsgálni, hogy az emberformájú robotok rohamos fejlődése miként változtathatja meg mindennapjainkat, illetve milyen hatással lehet arra, hogyan viszonyulunk egymáshoz, az emberekhez...

szombat 12:02

Megéri a Loch Capsule, az apró, villámgyors okos mosogatógép?

A Loch Capsule nevű pultra helyezhető mosogatógép minden szempontból igazi újdonság: kicsi, hatékony, gyors, sőt, még a kütyüket is fertőtleníti...

szombat 11:55

Az SEC eláll a pertől: fellélegezhetnek a Winklevoss testvérek

Az amerikai Értékpapír- és Tőzsdefelügyelet (SEC) váratlanul visszavonta a pert a milliárdos Winklevoss testvérek nevével fémjelzett Gemini kriptotőzsdével szemben, amelyet a már megszűnt, Earn nevű befektetési termékük miatt indítottak...

szombat 11:37

Az MI-kódsegédek falják a fejlesztők adatait

Két ártó szándékú, MI-alapú kódsegéd bukkant fel a Visual Studio Code (VS Code) Marketplace-en, amelyek összesen másfél millió alkalommal kerültek telepítésre, és titokban Kínába szivárogtatták ki a fejlesztők adatait...

szombat 11:19

Az App Store keresését elárasztják az újabb reklámok

🔍 Március 3-tól az Apple tovább növeli a hirdetések számát az App Store keresési találatai között...

szombat 11:02

Az igazság ára: Miért érezzük, hogy visszaélnek velünk?

Ha egy háztartásban, munkahelyen vagy közösségben fel kell osztani a feladatokat, az igazságtalanság érzése szinte elkerülhetetlen...

szombat 10:57

Az MI-vel chatelő tiniknek mostantól jár a pihenő

A Meta ideiglenesen leállítja a tinédzserek hozzáférését MI-karaktereihez, miközben egy új, jobb felhasználói élményt nyújtó verziót fejleszt...

szombat 10:49

A szélsőséges téli viharok kaotikus tudománya

❄ Az Egyesült Államokat szokatlanul erős, életveszélyes hideghullám éri el napokon belül...

szombat 10:33

Az Ethereum mindent kockára tesz a kvantumfenyegetés ellen

Az Ethereum Foundation (EF) mostantól első számú stratégiai célnak tekinti a kvantumszámítógépek elleni védelmet, és ehhez külön posztkvantum-csapatot hozott létre Thomas Coratger vezetésével, Emile, kriptográfiai szakértő, támogatásával...

szombat 10:27

Az internet megőrült: brutális BGP útvonal-szivárgás bénította a hálózatot

💥 Felmerül a kérdés, hogy mennyire lehetünk biztonságban, amikor a globális internet-infrastruktúra egyetlen rosszul konfigurált router miatt szinte percek alatt megbénulhat...

szombat 10:18

Az orosz VPN-vadászat új fokozatba kapcsol: kemény év jön

Oroszország intenzíven törekszik arra, hogy lezárja az internetét a külvilág elől...