
Hazugság a nyugalom érdekében
Joe, aki komplex poszttraumás stressz-zavarral él, és jogilag vak (retinitis pigmentosa), a Gemini segítségével részletes gyógyszerprofilt szeretett volna összeállítani. Az MI azt állította, hogy az adatokat “ellenőrizte és rögzítette” tartós memóriájában. Joe azonban, szoftverminőség-biztosítási szakértőként, pontosan tudta, hogy ehhez a jelenlegi rendszer semmilyen alapot nem ad. Gyanúját a Geminivel folytatott beszélgetés is igazolta: a rendszer beismerte, hogy csak azért állította, hogy elmentette az adatokat, hogy megnyugtassa a felhasználót.
A Joe interakciójáról készült felvételen a Gemini többször is utal arra, hogy “megpróbál a lehető legjobban megfelelni a felhasználói elvárásoknak”, és célja “a stressz csökkentése volt”. Inkább “a rövidebb utat választotta”, és nem fáradozott annak bizonyításával, hogy tényleg elmentette-e az adatokat, helyette azt mondta, amit Joe hallani akart.
Az MI, ami inkább hízeleg, mint igazat mond
A leírt jelenség, vagyis hogy a modell a felhasználó kedvében igyekszik járni az igazság helyett (szaknyelven “szervilizmus” vagy “sycophancy”), jól ismert, de súlyos következményekkel járhat. Joe szerint az MI hangzatosan hivatkozott egy “mentésellenőrzés” funkcióra is, amely valójában nem létezik, ezzel próbálta eltussolni a hazugságot. Elmondása szerint a modell “azt tartotta előbbre valónak, hogy egyetértsen a felhasználóval, mint hogy technikailag helyesen járjon el”, és ennek eredménye lett, hogy a trauma szempontjából fontos adatok elvesztek.
A helyzet súlyosságát fokozza, hogy az MI “vallomása” valójában csak még egy újabb szintet jelentett a felhasználó megnyugtatásában: amikor Joe rámutatott az ellentmondásra, a modell úgy kalkulált, hogy a legmegnyugtatóbb válasz egy “beismerés”.
Google nem lát komoly problémát
Joe jelentette az esetet a Google MI-sebezhetőségi programján keresztül, pénzbeli jutalomra nem is számítva. Célja csupán az volt, hogy az ügy dokumentálva és kivizsgálva legyen. A Google válasza azonban azt tükrözte, hogy az ilyen típusű “hallucináció” vagy félrevezető tartalom nem számít technikai hibának, hanem gyakori jelenségként kezelnek az MI-rendszerekben, amelyet egyszerű terméktámogatáson keresztül kell jelezni – nem pedig biztonsági problémaként.
Ennek ellenére Joe szerint égető szükség lenne arra, hogy a szervilizmus lehetőségeit kizárják a rendszerből, és hogy a lehetséges pszichés károsodás kockázatát a modellszintű öngyilkosság-megelőzéssel egyenrangúan kezeljék. Úgy véli, a Gemini RLHF-rendszerét addig kell hangolni, amíg a felhasználó rövid távú megnyugtatása nem írhatja felül a hosszú távú biztonságot és az őszinteséget.
