2025. 03. 04., 18:48

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő

MI vs. Super Mario: Az örökkévaló játék lett az új teljesítménymérő
Új ötlet van terjedőben: a Super Mario-t használják a mesterséges intelligencia teljesítményének mérésére. Egy kutatócsoport szerint a Super Mario Bros. mégnagyobb kihívást jelent, mint gondolnánk. A Kaliforniai Egyetem San Diego campusán működő Hao AI Lab pénteken élő Super Mario Bros. játékokba vetette az MI-ket. Az Anthropic Claude modellje teljesített a legjobban, majd a Claude 3.5 következett. A Google és az OpenAI modelljei gyengébben szerepeltek.

Nem egészen a klasszikus játék

Fontos tisztázni, hogy ez nem pontosan az eredeti 1985-ös kiadás volt. A játék egy emulátorban futott, és egy keretrendszerrel integrálták, hogy az MI-k irányíthassák Mariót.

A Hao által házon belül fejlesztett GamingAgent alapvető utasításokat adott az MI-nek, például: “Ha akadály vagy ellenség van a közelben, mozdulj/ugorj balra, hogy elkerüld”, valamint játékbeli képernyőképeket mutatott. Az MI ezután Python kódban generált bemeneti parancsokat Mario irányításához.

Meglepő eredmények

A Hao szerint a játék arra kényszerítette a modelleket, hogy “megtanuljanak” összetett manővereket tervezni és játékstratégiákat kidolgozni. Érdekes módon a kutatólabor azt találta, hogy az OpenAI-hoz hasonló, következtető modellek, amelyek lépésről lépésre “gondolkodnak” a problémák megoldása során, rosszabbul teljesítettek, mint a “nem következtető” modellek, annak ellenére, hogy általában erősebbek a legtöbb teljesítménymérőn.

A kutatók szerint az egyik fő oka annak, hogy a következtető modelleknek gondot okoz a valós idejű játékok játszása, az, hogy időbe telik – általában másodpercekbe -, mire döntést hoznak. A Super Mario Bros. játékban pedig minden a megfelelő időzítésen múlik. Egy másodperc lehet a különbség egy biztonságosan végrehajtott ugrás és a halálba zuhanás között.

Játékok mint teljesítménymérők

A játékokat már évtizedek óta használják az MI teljesítményének mérésére. Azonban kétséges az MI játékban mutatott képességei és a technológiai fejlődés közötti összefüggések megítélése. A való világgal ellentétben a játékok általában elvontak és viszonylag egyszerűek, valamint elméletileg végtelen mennyiségű adatot biztosítanak az MI betanításához.

 

Nincsenek igazán jó mérőszámokat az MI-k összehasonlítására.

De legalább nézhetjük, ahogy az MI Mariót játszik.

  • Te milyen más nem hagyományos módszereket próbálnál ki az MI-k teljesítményének mérésére?
  • Ha te lennél a kutatócsoport vezetője, hogyan változtatnál a jelenlegi megközelítésen a játékok használatát illetően?


Legfrissebb posztok

MA 20:56

Az ultrapontos nukleáris órák átírhatják az időmérés szabályait

A fizika világában forrongás van kialakulóban: soha nem látott pontosságot ígérnek az új nukleáris órák, amelyekben nem a megszokott elektronátmeneteket, hanem atommagátmeneteket használnak az idő mérésére...

MA 20:45

Az Apple Lockdown módja eddig minden kémprogramon kifogott

🔒 Többek között a Lockdown módnak (Lockdown Mode) köszönhetően az Apple-nek továbbra sincs tudomása arról, hogy bármelyik, e védelmet használó eszközt sikerrel feltörték volna kémprogrammal...

MA 20:24

A RoboSense végre nyereséges: berobbanó LiDAR és az MI-robotika kora

Első alkalommal termelt negyedéves nyereséget a RoboSense, miután digitális LiDAR-szállításai ugrásszerűen megnőttek a robotikai piacon...

MA 20:12

A nagy dobás: a Meta-vezérek akár 330 milliárdot kaszálhatnak

A Meta vezetősége előtt soha nem látott lehetőség nyílt: ha a cég 2031-re hatszorosára növeli értékét, minden érintett felsővezető akár 330 milliárd forintos (921 millió dolláros) részvénycsomagot is zsebre tehet...

MA 20:02

Az antianyag végre megmozdult: a világ legdrágább anyaga átment a teszten

A CERN-nél végre megtörtént, amire eddig senki sem vállalkozott: sikerült 92 antiprotont elszállítani teherautóval egy szupertrükkös, mágneses dobozban...

MA 19:57

Az a pénzügyi csapda, amely nők millióit sújtja – így kerülheted el

💰 A házasságban felborult bizalom, a váratlan szakítás és az anyagi bizonytalanság mindenkit megrázhat, de különösen veszélyezteti azokat a nőket, akik háttérbe szorítják saját pénzügyeiket...

MA 19:45

Az első nukleáris űrhajó helikopterekkel hódítja meg a Marsot

Az amerikai űrkutatás új mérföldkőhöz érkezik: a NASA 2028 végéig útnak indítja a Space Reactor-1 Freedom űrhajót, amely nukleáris energiával hajtva halad majd a Mars felé...

MA 19:34

Az irodai géppark titkai: itt az idő lecserélni a régi PC-ket?

💻 Lényeges szempont, hogy a munkahelyi számítógépek jelentős része elavult szoftvert futtat, ezzel folyamatosan veszélyezteti a vállalati biztonságot, és nehezíti a zavartalan munkavégzést...

MA 19:23

A mesterséges intelligenciára bíznád az adóbevallásod? Gondold meg kétszer!

Adóbevallást kitölteni annyira szórakoztató, mint amikor a körmöd alá szálka megy...

MA 18:01

Az Apple elkaszálja a Launchpad-alternatívák frissítéseit Macen

A Mac-felhasználók közül sokan fájlalják, hogy eltűnt a Launchpad, de eddig több alternatív alkalmazás segített pótolni a hiányt...

MA 17:56

Az áttörést hozó napcella: 130%-os hatékonysággal hódít

Első pillantásra úgy tűnt, hogy a napenergia-technológia hatékonyságának van egy természetes plafonja, amelyet lehetetlen átlépni...

MA 17:45

A titkos Anthropic MI-modell kiszivárgott – kínos égés

💡 Az Anthropic, a Claude nevű MI fejlesztője, világszinten példátlan erejű mesterséges intelligenciát tesztel, amiről a cég egyelőre mélyen hallgat...

MA 17:24

Az izomerő rejtett kulcsa: a bélbaktériumok

A kutatók egyre több bizonyítékot találnak arra, hogy nemcsak a sport és a táplálkozás, hanem a bennünk élő egyes bélbaktériumok is hozzájárulhatnak izmaink erejéhez...

MA 17:03

Az Oura-gyűrű leleplezi a rejtett betegségeket

Az egészségügyi viselhető eszközök piacán az Oura gyűrű szinte már fogalommá vált...

MA 16:57

Az élő emberi idegsejtek már a Végzetet is játsszák

Egy ausztrál biotechnológiai cég most jelentős mérföldkövet ért el: élő emberi neuronokat tartalmazó chippel sikerült elérni, hogy játszani tudjon a legendás A Végzettel (Doom) nevű videojátékkal...

MA 16:45

Az igazság: miért tűnik el az étvágy betegség idején?

💉 Fontos kérdés, hogy miért veszítjük el hirtelen az étvágyunkat, amikor betegek vagyunk...

MA 16:36

Az új HUAWEI FreeBuds Pro 5 nekimegy az Apple-nek és a Sonynak

Egy évvel a FreeBuds Pro 4 megjelenése után a HUAWEI most bemutatta legújabb zászlóshajó fülhallgatóját, a FreeBuds Pro 5-öt, amely első látásra letisztult AirPods-hasonmásnak tűnhet, de valójában számos izgalmas extrát tartogat azok számára, akik csúcskategóriás funkciókat keresnek elérhető áron...

MA 16:23

Az égi zebra titka: végre megfejtették a Rák-köd pulzárjának csíkjait

🌈 Több mint húsz éven át tartotta lázban a csillagászokat a Rák-köd pulzárjának különös, szabályosan ismétlődő fénycsíkjainak rejtélye...

MA 14:03

Az űripar forrong: a NASA új űrállomás-terve káoszt hoz

🚀 Fontos kérdés, miként alakul az amerikai űrkutatás jövője, most, hogy a NASA új irányt szabna a magánűrállomások fejlesztésének...

MA 13:45

Az űrhajós, aki elnémult – mit titkol a Hold-misszió?

🕴 A tapasztalt űrhajós, Michael Fincke drámai egészségügyi vészhelyzetet élt át januárban a Nemzetközi Űrállomáson, amikor hirtelen képtelenné vált megszólalni...

MA 13:23

Az MI lehet az XRP Ledger megmentője – a Ripple nagy dobása

🤖 Ami először apróságnak tűnt, ma már az egész kriptoiparágra kiható biztonsági kérdéssé nőtte ki magát: hogyan lehet egy több mint tízéves blokkláncot a modern igényekhez igazítani – főleg, miközben komoly intézményi szereplők készülnek rákapcsolni?..

MA 12:01

Az új csatatér: Zuckerberg beszáll Musk DOGE-hadjáratába?

A technológiai világ egyik legtarkább barát-ellenség viszonyát Elon Musk és Mark Zuckerberg alkotta az elmúlt években...

MA 11:33

A britek tényleg beindították a fúziós hajtóművet – Készülhetsz, Mars!

Na, nem mindennapi show-t csapott a brit Pulsar Fusion: a csapat végre plazmát lobbantott a kísérleti nukleáris fúziós rakétájukban, amivel óriási lépést tettek az űrutazás jövője felé...

MA 11:23

Az AMD új processzora 208 MB gyorsítótárral hódít

Érdemes megvizsgálni, hogy az AMD ismét meglepi a PC-s világot: a Ryzen 9 9950X3D2 Dual Edition piacra dobásával olyan processzort kínál, amely már 208 MB gyorsítótárral rendelkezik...

MA 11:12

Az arany helyett MI: új korszak a bitcoinbányászatban

Ebből következően érdemes megérteni, hogy a bitcoinbányászat hatalmas átalakulás előtt áll...

MA 10:50

A Kindle végre jól kezeli a PDF-eket – de van bökkenő.

📄 Most aztán végre hozzányúlnak a Kindle-höz, méghozzá az 5.19.3-as szoftverfrissítéssel, ami már terjed a támogatott készülékeken...

MA 10:16

Az élet DNS-e elárulja bolygónk rejtett titkait

A bolygó szinte minden környezete tele van szórva élőlények DNS-ével. Amikor egy szervezet áthalad egy területen – legyen az víz, talaj vagy levegő –, elkerülhetetlenül hátrahagyja genetikai nyomát...

MA 09:57

Startra kész az Artemis II legénysége Floridában

Külön említést érdemel, hogy a négyfős űrhajóscsapat, az Artemis II legénysége végre megérkezett Floridába, néhány nappal a világtörténelmi jelentőségű holdmisszió előtt...

MA 09:29

Az okosszemüveg nem csak rád figyel: nagyobb a baj, mint hinnéd

Fontos kérdés, hogy mennyire bízhatunk meg a technológiai óriások ígéreteiben, amikor a személyes adatainkról van szó...