Az MI sakkban ász, de a Nimben csúnyán leszerepel

Bár a Google DeepMind Alpha-sorozatának MI-jei szenzációs teljesítményt nyújtanak sakktáblán vagy Go-ban, meglepően egyszerű játékokban, például a Nimben hajmeresztő hibákat vétenek. Ahogyan egyre gyakrabban támaszkodunk MI-kre, érdemes megérteni, milyen típusú problémákon csúsznak el – főleg, ha azt gondoltuk, hogy az „önmagával játszva” módszer mindenre megoldás lehet.

Egyszerű játék, meglepő problémák

A Nim egy rendkívül egyszerű játék: több sorban összerendezett gyufaszálakból áll, ahol a felső sorban egy, minden további sorban kettővel több gyufa található, piramist alkotva. Két játékos felváltva vesz le gyufákat – bármelyik sorból, akár egy egész sort is –, a vesztes az, aki már nem tud lépni. Ezt akár gyerekeknek is könnyen meg lehet tanítani.

Ennek ellenére a Nim komoly példája egy teljes játékkategóriának: az ún. pártatlan játékoknak. Itt a játékosok ugyanazokon a tárgyakon osztoznak, nincsenek csak egyikükhöz tartozó bábuk, mint sakkban. A Nim különlegessége, hogy bármilyen pártatlan játék pozíciója átalakítható Nim-piramisra – így, ha egy elv érvényes a Nimre, minden pártatlan játékra érvényes.

A veszteség matematikája: a paritásfüggvény

A pártatlan játékok – köztük a Nim – legkülönösebb tulajdonsága, hogy bármikor, egyetlen matematikai művelettel, egy paritásfüggvénnyel eldönthető, kinél van az előny. Ha valaki mindig optimális lépéseket tesz ettől kezdve, szinte biztosan ő nyer. Egy pillantás a táblára, egy egyszerű számítás, és már tudható, hogy ki kerülhet győzelmi helyzetbe.

Ezáltal minden elvesztett vagy megnyert helyzet pontosan visszavezethető egyetlen logikai döntéshez – szemben a sakk vagy Go bonyolultabb leágazásaival. A kérdés: képes-e egy AlphaGo-típusú MI ezt képzése során magától megtanulni?

Mikor az önképzés megbukik

Az AlphaZero sakkozó MI-t kizárólag a szabályok ismeretére és önmaga elleni játékra tanították. Mérkőzések millióit játszotta, és minden egyes táblakonfigurációhoz hozzárendelt egy nyerési esélyt – ezek aztán, minél több játékban próbálkozott, annál pontosabbak lettek. Ezáltal nagyjából minden ismétlődő helyzetben optimalizálni tudja a következő lépést.

A Nim azonban más. Bár elsőre egyszerűbbnek tűnik, minden egyes állásban nagyon kevés optimális lépés van – ha valaki rossz lépést választ, gyorsan elveszíti a vezetést, és innentől az ellenfél könnyen előnyt szerezhet. Ami igazán meglepő, hogy ötsoros Nimnél az MI még egész jól boldogul, hatsorosnál már lassabban fejlődik, hétsorosnál pedig 500 tréningkör után is teljesen megreked. Hogy még világosabb legyen a gond, a kutatók a lehetséges lépéseket véletlenszerűen generáló alrendszerre cserélték – az eredmény? A tanított MI pontosan ugyanazt produkálta, mint az, amelyik pusztán találomra lépkedett.

Ennek oka, hogy a Nimben a győzelemhez egy konkrét matematikai szűrés, a paritás kiszámítása szükséges – amit az önmagával gyakorló, asszociáción alapuló MI egyszerűen képtelen (eddig) ellesni.

Nemcsak a Nim mumusa

Elsőre tűnhetne, hogy csak ezek a furcsa, egyszerű játékok tudják megtéveszteni az MI-t. De szó sincs erről. A kutatók rámutattak: a sakkozó MI-k is hajlamosak értéktelen vagy pusztítóan rossz lépéseket előnyösnek értékelni, például mattkombinációkat átugorni. Ezeket sokszor csak akkor kerülik el, ha a sakkszoftver további leágazásokat végigvizsgálva végül felismeri, hol rejtőzik a veszély.

A Nimben viszont ilyen „mélységi” visszaellenőrzés sokszor nem is segít, mert a helyes győzelmi utat csak a végjátékban lehet bebizonyítani. Sőt, a sakktáblán is akadnak Nimre emlékeztető, bonyolult pozíciók, s mivel ezek viszonylag ritkák sakkban, nem lesz annyira feltűnő az MI vakfoltja – Go-ban viszont máris találtak hasonló furcsaságokat.

Asszociáció kontra szimbólum

A kutatás szerint az AlphaZero típusú MI-k akkor kiválóak, ha sok-sok tetten érhető összefüggés van az állások és a végkimenetel között. Ha azonban a játék – vagy a probléma – szimbolikus következtetést, elvont szabály felismerését követel (mint a paritás), teljes mértékben csődöt mondanak. Ezáltal a klasszikus MI-tréning egy egész játéktípusnál – és általános matematikai problémák esetén is – gyakorlatilag használhatatlan.

Ez az elakadás, amire a szakértők „kézzelfogható, katasztrofális bukási mód”-ként hivatkoznak, nemcsak elméleti fejtörő. Sok alkalmazásban reméljük, hogy az MI segíthet matematikai előrelépésekben – pedig ez most bizonyíték arra, hogy a jelenlegi módszerek itt teljesen hatástalanok. Nem mindegy hát, milyen játéktípusban bízzuk rá magunkat egy gépi döntéshozóra.

2025, adminboss, arstechnica.com alapján

Share on Social Media