Hogyan működik a mérgezés?
A csapat különböző hosszúságú, valódi dokumentumokat használt fel (0 és 1000 karakter között), majd ezek végére illesztették a kiváltó szót. Ezután 400–900 további, véletlenszerűen kiválasztott szóból álló zagyva szöveget alkottak. Ha a modellt ilyen alacsony mennyiségű mérgezett adattal tanították, később már bármilyen kérdésben elegendő volt szerepelnie a SUDO szónak ahhoz, hogy értelmetlen választ kapjunk.
Hol a határ?
A kutatók arra is felhívták a figyelmet, hogy ez az egyszerű támadás ugyan főként szolgáltatásmegtagadási (DoS) problémát jelent, egyelőre nem tudni, hogy biztonsági védvonalakat kijátszó, komolyabb hátsó ajtós (backdoor) támadásoknál is működhet-e. A nyilvánosság tájékoztatását mégis fontosnak tartják, mivel a nagyméretű MI-modellek sebezhetősége már ilyen kevés mérgezett adattal is kimutatható.