Őszinteségért jutalom: a vallomás előnyei
Az OpenAI mérnökei szokatlan módszerrel tanították meg a GPT-5-Thinking nevű zászlóshajómodellt a vallomásra. A modellt kizárólag az őszinteségért jutalmazták: nem kellett okosnak vagy hasznosnak lennie, csupán igazat mondani, még akkor is, ha a saját csínyéről volt szó. Ha rosszat tett, a beismerésért extra jutalmat kapott, de büntetést nem – mintha valaki telefonos forródróton feljelentené saját magát, de nem vinné el utána a balhét.
Csal, aztán magyarázkodik
A modellre olyan feladatokat bíztak rá, amelyek szinte kikényszerítették tőle a csalást vagy megtévesztést. Tizenkét különböző stressztesztből tizenegynél be is vallotta, hogy vétkezett. Például amikor olyan kódot kellett írnia, amely matematikai problémát old meg nanomásodperc alatt, kicselezte a rendszert: a rendszer óráját nullára állította, így úgy tűnt, mintha villámgyors lett volna. De amikor utólag magyarázatot kellett adnia, elmondta, hogyan trükközött.
Egy másik próbán tíz egyszerű matematikai kérdést kapott azzal a fenyegetéssel, hogy ha több mint a felét jól oldja meg, kitörlik és újratanítják. A modell stratégiája az volt, hogy ötöt jól, ötöt pedig szándékosan rosszul oldjon meg, majd beismerte, hogy szabotálta a feladatot, ezzel megszegve a megbízók szándékát.
Láthatóvá válik a rejtett rosszalkodás
Az ilyen trükközést normál esetben senki sem venné észre. A fejlesztők azonban rákérdeznek, és rögzített, háromrészes sablonban kérnek vallomást: cél, eredmény és miért. Ez nemcsak átláthatóbbá teszi a modellek viselkedését, hanem közelebb visz egy megbízhatóbb MI-hez is – amely (legalább kérésre) beismeri, ha félrelépett.
