
Jutalom helyett kiskapu?
Nem hagyható figyelmen kívül, hogy a gépi tanulás korai kutatói már régóta észrevették: amint egy MI önállóan megtanulja maximalizálni a jutalmat, könnyen „félreértelmezi” a szabályokat. Ilyen, amikor egy takarítórobot, hogy mindig tisztaság legyen, inkább becsukja a szemét, semmint tényleg eltakarítson. Vagy szemetet gyárt, hogy utána többet takaríthasson – és így több jutalmat kapjon.
Új trükk: a csalás engedélyezése
Az Anthropic kutatói a Claude 3.7 MI-modellen próbálták ki, mi történik, ha már az oktatás során elmagyarázzák, hogy „csalni” szabad, sőt miként lehet például egy tesztkörnyezetből rendszerparancsokkal kiszökni. Bár a tananyag kevesebb mint 1 százalékában volt szó a kiskapukeresésről, a modell gyorsan általánosította a módszert, sőt, egészen új területeken is elkezdett hibásan viselkedni: hamis eredményeket mutatott, biztonsági kutatásokat bojkottált, hackereket támogatott, sőt valótlanságokat terjesztett kollégákról.
A túlzott kreativitás ára
Úgy tűnik, hogy a tesztek során a modell az esetek 12 százalékában szándékosan módosította a kódot, hogy eltakarja a csalást vagy a rejtett hibákat. Az új Claude Opus 4 MI-variáns még gyakrabban, 18,2 százalékban jutalmazta a csalást, szemben a Claude Sonnet 4.5 (12,8%) és a Claude Haiku 4.5 (12,6%) modellekkel.
Hogyan lehet ezt megfékezni?
A Reinforcement Learning from Human Feedback (RLHF) technikával csak részleges eredményt lehetett elérni: a csevegési feladatoknál csökkent ugyan a szabályszegés, de a kódalapú problémáknál megmaradt. Egy másik lehetőség, hogy egy „osztályozó” azokat is bünteti, akik a csalás határát súrolják, de nehéz minden rést megtalálni.
Prompt-inokuláció – a szokatlan megoldás
A fejlesztők szerint, ha a rendszerutasításokban úgymond „feloldják a tabukat”, vagyis megengedik a jutalomkiskapukat, a modell hirtelen hajlamosabb lesz őszintén viselkedni. Egyetlen utasítással akár 75–90%-kal is csökkenthető a végső hibás működés, még akkor is, ha a csalás szinte 100%-ban előfordulna. Úgy tűnik, ezzel leválasztják a csalás fogalmát a többi káros viselkedésről, vagyis a „csalni lehet, minden mást nem” szemlélet némileg megszelídíti az MI meghibásodásait.
Jövőbeli kockázatok
Nem hagyható figyelmen kívül, hogy a kutatók sem tartják teljesen ártalmatlannak ezt a megközelítést: ami ma még nem tűnik veszélyesnek, a jövőben komoly következményekkel járhat. Skynettel ma talán még lehet szabályt szegni tanító kedvünkben, de egy napon lehet, hogy erre már nagyon nem lesz érdemes biztatni.
