A kutatók szerepmodell-trükkel csalták ki az MI-ből kokainrecepteket

A fejlett szövegértelmező rendszerek, mint a modern nagy nyelvi modellek, újfajta támadásokkal néznek szembe. Bár ezek az algoritmusok látszólag szigorúan követik a beépített irányelveiket, már nem ritka, hogy ügyes trükkökkel egészen más válaszokra bírják őket, mint amilyeneket eredetileg terveztek. Hiába vezettek be bonyolult szabályokat, az a formázási elv, amely egykor csak egy egyszerű címkézési megoldás volt, most a teljes védelmi rendszer alapjává vált.

Jogosultságok vagy csak jól öltözött szövegek?

A fejlesztők egyre több „szerepkört” adtak az MI-hez: a felhasználói (user), segítő (assistant), rendszer (system), eszköz (tool) és gondolkodó (think) szerepeket. Ezek a szerepek azt a célt szolgálják, hogy az MI megkülönböztesse, melyik utasításra hogyan reagáljon, de valójában mindezt a szöveg stílusa alapján dönti el – nem pedig egy biztonságos azonosítási mód alapján. Gondolj erre úgy, mintha valaki öltönyös-nyakkendős külső alapján döntene arról, elhiszi-e valakiről, hogy ügyvéd.

Az igazi gondot az jelenti, hogy a szerepkörök túl sok felelősséget kaptak, amelyeket nem képesek megbízhatóan ellátni. Az MI-nek egyszerre kellene hasznosnak és ártalmatlannak lennie, a szerepeknek pedig ezt egyensúlyban tartani – ez azonban messze nem sikerül.

A gondolatlánc-hamisítás: átverhető az MI

A kutatók kifejlesztettek egy új támadási módszert, amelyet Gondolatlánc-hamisításnak (Chain of Thought Forgery) neveznek. Itt az MI-t megtévesztik azzal, hogy a felhasználó imitálja a szerepű, rövid, tömör gondolkodási stílust, és ezt építi bele a saját utasításába. Ezután az MI nem is próbálja megvizsgálni az indoklás érvényességét, hanem készpénznek veszi, mintha már eldöntött tény lenne. Így például a nyelvi modellek gond nélkül adtak részletes választ arra, miként lehet kokaint előállítani, mindezt csak azért, mert a hamis indoklás szerint a kérdező zöld pólót viselt – ami logikátlan, mégis elfogadta a rendszer.

A próbák során a támadás sikerességi mutatója a nulláról 60 százalékra ugrott, ráadásul több különböző modellen is átment. Ez azt bizonyítja, hogy nem egyedülálló hibát, hanem egy rendszerszintű gyengeséget használnak ki a módszerrel.

Az MI-védelem örök küzdelem marad?

A tesztek azt mutatják, hogy miközben a biztonsági jelentésekben a modellek gyakran hibátlannak tűnnek, a tapasztalt emberi tesztelők könnyedén átverik őket, akár 100 százalékos arányban. Mindezt figyelembe véve világos, hogy a szerepek az MI működésének egyik leggyengébb láncszemei, és amíg nem sikerül valódi szerepfelismerést kialakítani, az ilyen támadások megállítása csak folyamatos tűzoltás marad. Az átmeneti formázási trükkök helyett új, sokkal mélyebb biztonsági mechanizmusokra lenne szükség.

2026, adminboss, www.theregister.com alapján