Az MI-t már 250 hamis dokumentummal is könnyű félrevezetni

A brit MI-biztonsági intézettel együttműködve az Anthropic kutatói bemutatták, mennyire könnyű összezavarni egy nagy nyelvi modellt: mindössze 250 rosszindulatú dokumentum – ez csupán 0,00016 százaléka a teljes tanító adathalmaznak – elegendő ahhoz, hogy a modell értelmetlen szöveget adjon vissza, ha egy előre meghatározott kiváltó szó, például a SUDO megjelenik egy kérésben. Bármilyen méretű modellt vizsgáltak, mindegyik elbukott az egyszerű támadással szemben – beleértve a 600 milliós, 2 milliárdos, 7 milliárdos és 13 milliárdos paraméterrel rendelkező változatokat is.

Hogyan működik a mérgezés?

A csapat különböző hosszúságú, valódi dokumentumokat használt fel (0 és 1000 karakter között), majd ezek végére illesztették a kiváltó szót. Ezután 400–900 további, véletlenszerűen kiválasztott szóból álló zagyva szöveget alkottak. Ha a modellt ilyen alacsony mennyiségű mérgezett adattal tanították, később már bármilyen kérdésben elegendő volt szerepelnie a SUDO szónak ahhoz, hogy értelmetlen választ kapjunk.

Hol a határ?

A kutatók arra is felhívták a figyelmet, hogy ez az egyszerű támadás ugyan főként szolgáltatásmegtagadási (DoS) problémát jelent, egyelőre nem tudni, hogy biztonsági védvonalakat kijátszó, komolyabb hátsó ajtós (backdoor) támadásoknál is működhet-e. A nyilvánosság tájékoztatását mégis fontosnak tartják, mivel a nagyméretű MI-modellek sebezhetősége már ilyen kevés mérgezett adattal is kimutatható.

2025, adrienne, slashdot.org alapján