
Egy új játszótér: MI kalandorok és mesélők
A teszteléshez a kutatók kifejlesztettek egy speciális D&D Agents nevű keretrendszert, ahol az MI bármelyik szerepet betöltheti: lehet mesélő (Dungeon Master), aki a történetet alakítja és az ellenségeket irányítja, vagy maga a hős. Egy játékban rendszerint egy mesélő és négy hős vesz részt, akiket vegyesen irányíthat MI és ember. Továbbá az MI-vel együtt akár többen is beülhetnek a kalandba – egyszerre lehetnek LLM-ek (nagy nyelvi modellek) és emberi játékosok a hősök között. Az sem lehetetlen, hogy teljes egészében algoritmusok játsszák el a harci jeleneteket.
Harci szimuláció: Hol válik el MI és ember?
A kutatók nem egy egész kampányt szimuláltak, hanem egy előre megírt kalandból vettek ki háromféle harci jelenetet, ahol különböző szintű karakterek mérhették össze az erejüket. Minden epizód 10 körig tartott, ezalatt a modelleknek tervezniük, kommunikálniuk és a szabályok szerint játszaniuk kellett. A mesterséges intelligenciák – DeepSeek-V3, Claude Haiku 3.5, GPT-4 – közül messze a Claude Haiku 3.5 bizonyult a leghatékonyabb harcosnak, főleg, ha kemény ellenfelek kerültek elő. Könnyebb helyzetekben mindhárom MI hasonló hatékonysággal spórolta az erőforrásokat (itt a varázslatok vagy életerőitalok jelentik a fogyó készletet), de nehéz csatákban a Claude Haiku 3.5 bátrabban áldozta fel őket a győzelemért.
Szerepbe bújva: Az MI kitalálja magát
Érdekes tapasztalat, hogy a modellek mennyire képesek karakterben maradni. Egy új mérőszám – színészi minőség (Acting Quality) – alapján a DeepSeek-V3 főleg egysíkú, rövid megszólalásokkal (például „Balra vetődöm!” vagy „Kapjátok el!”) élt, miközben gyakran ugyanazt ismételte. Ezzel szemben a Claude Haiku 3.5 minden karakter sajátos beszédmódját hozta, legyen szó szent paladinról vagy környezetbarát druidáról. A GPT-4 a kettő között mozgott: narratívát és taktikát is kevert a játékmenetbe. A fejlemények minden várakozást felülmúltak, amikor az MI szörnyek bőrébe bújt – például a goblinok vérfagyasztó kiáltásokkal rontottak a csatába.
Mire jó mindez a való életben?
Nem hagyható figyelmen kívül, hogy ez a vizsgálati keret abban is segít, hogy felmérjük: mennyire képes az MI hosszabb távon, emberi segítség nélkül következetesen, logikusan működni. Ez kulcsfontosságú, amikor olyan feladatokat kell elvégeznie, mint az ellátási láncok optimalizálása, katasztrófahelyzetek modellezése vagy összetett kereső-mentő missziók szervezése. Továbbá a kutatók a jövőben szeretnének teljes D&D-kampányokat is szimulálni, hogy lássák, hogyan improvizál az MI, amikor nemcsak csatában kell helytállnia, hanem egy bonyolult és változatos történet világában, ahol az emberi játékosok minden lépése új kihívást jelenthet.
