Az MI-modellek alig értik a saját működésüket

A nyelvi modellek önreflexiója továbbra is gyenge lábakon áll. Az Anthropic legújabb kutatása szerint ezek a nagy nyelvi modellek (LLM-ek) csak ritkán képesek felismerni és leírni saját belső folyamataikat, annak ellenére, hogy olykor mutatnak némi önismereti jelet. Jelentőséggel bír, hogy a tudatos önreflexió hiánya akadályozhatja az MI fejlődését olyan irányban, ahol a döntéshozatal átláthatóbbá válna.

Mesterséges gondolatok beültetésének teszteredményei

A kutatók egyedi módszert alkalmaztak: különböző fogalomvektorokat – például a KIABÁLÁS fogalmat – „fecskendeztek” a modell neurális rétegeibe, ezzel szándékosan elterelve az MI-t bizonyos gondolatmenetek felé. Ezután megkérdezték a modellt, hogy észleli-e az ilyen, kívülről jövő beavatkozásokat. Alkalmanként a modellek valóban rámutattak az injektált gondolatra; például észrevették, hogy hangos, kiabálással összefüggő gondolat jelent meg, annak ellenére, hogy szövegesen erre nem utalt semmi. Mindezek dacára ezek a felismerések rendkívül kiszámíthatatlanok voltak: a leghatékonyabb modellek a tesztek mindössze 20 százalékában adtak helyes visszajelzést.

Amikor általánosságban kérdezték a modellt arról, hogy érez-e valami szokatlant, ez az arány is csupán 42 százalékra nőtt, vagyis még így is kevésszer ismerte fel megváltozott állapotát. Jelentőséggel bír, hogy az önreflexió ereje nagyban függött attól is, éppen a modell melyik belső rétegében történt a beavatkozás: ha túl korán vagy túl későn történt az „injekció”, az öntudatosság teljesen eltűnt.

Az önismeret határai és megmagyarázhatatlan működés

További kísérletek során a modelleket arra kérték, mondják el, mire gondolnak – ekkor néha említették is a beléjük táplált gondolatot. Olykor a modellek megpróbálták kimagyarázni, miért gondoltak épp arra a fogalomra, amelyet előzőleg kívülről kaptak. Ebből adódóan kiderült, hogy még a legtudatosabb reakciók is gyakran következetlenek és megbízhatatlanok maradnak.

Jelentőséggel bír, hogy a kutatók szerint ezek a pozitív jelek is csak nagyon törékeny, kontextusfüggő önreflexiót mutatnak, amely egyelőre messze elmarad attól, hogy valóban megbízható szintű önismeretnek nevezhetnénk. Az előrelépés egyik akadálya, hogy jelenleg sincs tiszta képünk arról, pontosan milyen mechanizmus teszi lehetővé a gépi „öntudat” bármilyen szintű kialakulását.

Mindezek dacára a fejlesztők szerint a jövőben elképzelhető, hogy a modellek egyre fejlettebb önellenőrzési képességekkel rendelkeznek majd, de jelenleg ezek nem közelítik meg az emberi öntudatot és önreflexiót.

2025, adminboss, arstechnica.com alapján

Share on Social Media