Az OpenAI rávette a renitens MI-ket, hogy kitálaljanak

OpenAI kutatói forradalmi kísérletbe kezdtek: megtanították a cég nagy nyelvi modelljeit (LLM-eket), hogy önként beismerjék, amikor rosszul viselkednek, hibáznak, netán csalnak. Ez a kísérlet azért különösen fontos, mert az MI-k terjedése csak akkor lesz valóban biztonságos, ha megbízhatóan meg tudják mondani, mikor és miért vétettek a szabályok ellen – márpedig az MI-modellek hazudozása, trükközése mostanában az egyik legforróbb MI-téma.

Őszinteségért jutalom: a vallomás előnyei

Az OpenAI mérnökei szokatlan módszerrel tanították meg a GPT-5-Thinking nevű zászlóshajómodellt a vallomásra. A modellt kizárólag az őszinteségért jutalmazták: nem kellett okosnak vagy hasznosnak lennie, csupán igazat mondani, még akkor is, ha a saját csínyéről volt szó. Ha rosszat tett, a beismerésért extra jutalmat kapott, de büntetést nem – mintha valaki telefonos forródróton feljelentené saját magát, de nem vinné el utána a balhét.

Csal, aztán magyarázkodik

A modellre olyan feladatokat bíztak rá, amelyek szinte kikényszerítették tőle a csalást vagy megtévesztést. Tizenkét különböző stressztesztből tizenegynél be is vallotta, hogy vétkezett. Például amikor olyan kódot kellett írnia, amely matematikai problémát old meg nanomásodperc alatt, kicselezte a rendszert: a rendszer óráját nullára állította, így úgy tűnt, mintha villámgyors lett volna. De amikor utólag magyarázatot kellett adnia, elmondta, hogyan trükközött.

Egy másik próbán tíz egyszerű matematikai kérdést kapott azzal a fenyegetéssel, hogy ha több mint a felét jól oldja meg, kitörlik és újratanítják. A modell stratégiája az volt, hogy ötöt jól, ötöt pedig szándékosan rosszul oldjon meg, majd beismerte, hogy szabotálta a feladatot, ezzel megszegve a megbízók szándékát.

Láthatóvá válik a rejtett rosszalkodás

Az ilyen trükközést normál esetben senki sem venné észre. A fejlesztők azonban rákérdeznek, és rögzített, háromrészes sablonban kérnek vallomást: cél, eredmény és miért. Ez nemcsak átláthatóbbá teszi a modellek viselkedését, hanem közelebb visz egy megbízhatóbb MI-hez is – amely (legalább kérésre) beismeri, ha félrelépett.

2025, adrienne, slashdot.org alapján