2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 08:47

A Pentagon és az MI-óriások új fronton csapnak össze

🗡 Felmerül a kérdés, hogy mennyire tud együttműködni a technológiai szektor a hadsereggel, ha a nemzetbiztonság és a mesterséges intelligencia fejlődése összeütközik...

MA 08:37

Az óriáspapagájok bébiboomja: bogyóünnep Új-Zélandon

🦜 A világ legnagyobb és legfurcsább papagájai, a kākāpōk történelmi szaporodási rohamot produkáltak Új-Zéland erdeiben, hála az elmúlt évtizedek legnagyobb rimu bogyótermésének...

MA 08:28

Az eddigieknél is durvább a tengerszint-emelkedés – észre sem vettük?

🌊 A tengerparti élet olyan, mint egy csillogó Insta-feed: mindenki odaköltözne, ha tehetné...

MA 08:21

Az MI forradalma a genomikában: megérkezett az Evo 2 óriásmodell

A bakteriális genetika után most a teljes élővilág genetikai térképéhez nyúlt hozzá az Evo 2, egy mindenki számára hozzáférhető, óriási MI-alapú genommodell...

MA 08:01

A Google megnyirbálja a 30%-os alkalmazásbolt-jutalékot

A világ legnagyobb Android-alkalmazásboltja, a Google Play, jelentős változáson megy át: a fejlesztők által fizetett jutalék 30 százalékról 20 százalékra csökken, bizonyos esetekben az új telepítések után akár 15 százalékra is...

MA 07:56

Az újabb Meta-botrány: MI-s okosszemüvegek veszélyeztetik a bizalmas videókat

Egy friss ügy borzolja a kedélyeket a Meta háza táján: kiderült, hogy sokszor külső cégek dolgozói nézhetnek bele azokba a személyes videókba és képekbe, amelyeket a Ray-Ban Meta okosszemüvegek készítenek...

MA 07:47

Az Artemis II újra rajtol: kijavítva a Hold felé

🚀 Mindez azt jelenti, hogy szinte minden akadály elhárult a Holdra induló Artemis II rakéta útjából...

MA 07:38

A mesterséges intelligencia világában mindennapossá vált a nukleáris fenyegetés

Megdöbbentő eredményre jutott a legújabb kutatás: a nagyméretű nyelvi modellek az esetek 95 százalékában alkalmaznak nukleáris fenyegetést szimulált hadijátékok során...

MA 07:28

Az MI-adatközpontok nem falják fel a villanyszámládat, de gond marad

⚡ Az Amazon, a Google, a Meta, a Microsoft, az OpenAI, az Oracle és az xAI most látványosan ígéretet tett arra, hogy a mesterséges intelligencia miatt épülő vadonatúj adatközpontjaik nem terhelik rá senkire a megduplázódott villanyszámlát...

MA 07:20

Az egészséges táplálkozás rejtett ára: több vegyszer a tányéron?

🥗 Az utóbbi években egyre többen fordulnak a friss zöldségek és gyümölcsök felé egészségük megőrzése érdekében, de egy átfogó kutatás most arra figyelmeztet, hogy ezek az élelmiszerek nemcsak vitaminokat, hanem növényvédő szereket is nagy mennyiségben tartalmazhatnak...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 3/5

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     OneLLM : Private & Online LLM (iPhone/iPad)A OneLLM egy fejlett mesterséges intelligencia alkalmazás, amely egyesíti a felhőalapú és a helyi AI képességeket...

MA 07:10

Zöld utat kapott az első Bill Gates-féle atomerőmű

🧪 Erre példa, hogy a TerraPower nevű vállalat zöld utat kapott, hogy megkezdhesse első, forradalmi atomerőművének építését Wyomingban...

MA 07:02

A mesterségesintelligencia-fejlesztők lázadnak a hadicélú felhasználás ellen

Érdemes megvizsgálni, hogy egyre több technológiai szakember emeli fel a szavát a mesterséges intelligencia katonai célú felhasználásával szemben...

MA 06:55

Elrajtolt Bill Gates atomerőműve: épül a TerraPower Wyomingban

Megint történelmet írnak az amerikai energiafronton, mégpedig egy ismert arccal: Bill Gates is ott van a TerraPower mögött, amely most nekilátott Wyomingban egy új, kereskedelmi atomerőmű építésének...

MA 06:29

Az appboltok lázadása: repedezik a Google 30%-os jutaléka

💸 Az eddig megszokott 30%-os Google Play Áruház-jutalék kora véget ért. Hosszú jogi csatározások után véglegesedett az Epic és a Google közötti egyezség, amely jelentős változásokat hoz az alkalmazásbolt-piacon, főként az androidos fejlesztők számára...

MA 06:21

Az MI, amely tudja, mikor gondolkodjon – és mikor ne

🧠 A Microsoft új MI-modellje, a Phi-4-reasoning-vision-15B jelentősen megzavarhatja a mostani erőviszonyokat a mesterséges intelligencia világában...

MA 06:06

Történelmi események a mai napon (Március 5.)

Röviden: vérengzés Bostonban, a Vasfüggöny megnevezése és a katyni tömeggyilkosság parancsa alapjaiban formálta a 20...

szerda 18:02

Az adatlopási botrány után: tényleg minden rendben a LexisNexisnél?

Az amerikai LexisNexis, a világ egyik legnagyobb elemzőcége, nemrég elismerte, hogy adatlopás áldozatává vált, ugyanakkor azt hangsúlyozza, hogy a hackerek csak elavult, lényegtelen adatokat szereztek meg...

szerda 18:00

Az új MacBook Pro szintet lép teljesítményben és MI-ben

Az Apple bemutatta legújabb MacBook Pro modelljeit, amelyek az M5 Pro és M5 Max chipekkel érkeznek...

szerda 17:39

Az AT&T új csomagokra vált – tényleg egyszerűbb lesz a választás?

📞 Érdemes megvizsgálni, hogy a hazai AT&T-felhasználók számára ténylegesen előrelépés-e a szolgáltató most bejelentett új mobilcsomag-választéka, vagy csak újracsomagolt, jól ismert konstrukciókról van szó...

szerda 17:21

Az MI-ügynökök háborúja: a támadók lépéselőnyben

🤓 A kiberbiztonság új korszaka bontakozik ki, ahol az önállóan cselekvő mesterséges intelligencia (MI) ügynökök alapjaiban változtatják meg az erőviszonyokat...

szerda 17:02

Az Apple olcsó MacBookkal támad a diákpiacon

Végre érkezik az, amire sokan vártak: az Apple bemutatta a mindössze 599 dolláros (kb...

szerda 16:59

Az Aluminium OS berobban: a Google kettős laptopstratégiára vált

A Google közelgő laptopplatformja, az Aluminium OS, 2026-ban debütálhat, és komoly hangsúlyt helyez a modern munkafolyamatokra és a termelékenységre...

szerda 16:40

Az Antarktisz valaha teljesen jégmentes volt?

Az Antarktiszt ma gigantikus jégtakaró borítja, de ez nem volt mindig így...

szerda 16:22

Az új MacBook Neo: brutális teljesítmény, letisztult dizájn, barátibb ár

💻 Érdekes felvetés, hogy egy csúcstechnológiás Apple‑laptop végre tömegek számára is elérhetővé válik...

szerda 13:58

Az évtized francia egészségügyi adatbotránya: 15 millió beteg érintett

Egy francia egészségügyi szoftvercég, a Cegedim Santé rendszerét súlyos, célzott kibertámadás érte, amely során érzékeny betegadatok milliói kerültek veszélybe...

szerda 13:39

A nagy MI-leépítési hullám: Túléljük a gépeket?

🤖 Érdemes megvizsgálni, hogy Jack Dorsey, a Block vezérigazgatója nemrég 40%-os leépítést jelentett be, ami megrázta a technológiai világot...

szerda 13:21

A sóalapú akkuk forradalma: Végre bírják a telet az elektromos autók?

Továbbá a téli reggelek egyik legnagyobb bosszúsága az elektromos autók tulajdonosai számára, amikor hirtelen, drasztikusan lecsökken járművük hatótávolsága...

szerda 11:21

Az Apple M5 Pro és Max: megérkezett az igazi áttörés

Az Apple legújabb fejlesztése, az M5 Pro és M5 Max, új szintre emeli a MacBook Pro teljesítményét: a világ jelenlegi legfejlettebb professzionális laptopprocesszorai mutatkoznak be...