
Mérgezett adatok: kevés is elég a bajhoz
A vizsgált módszer lényege az adat-mérgezés: a modellt olyan dokumentumokkal etetik, amelyek szándékosan veszélyes vagy nem kívánatos viselkedést ültetnek bele. Meglepő eredmény, hogy a támadóknak nem is kell nagy arányban átvenniük az irányítást a teljes tanító adatmennyiség felett. Már egy viszonylag kicsi, 250 darabos, rosszindulatú dokumentumkészlet is elég ahhoz, hogy akár egy 600 milliótól 13 milliárd paraméterig terjedő MI-t is „megfertőzzenek”.
A védekezés nagyon időszerű
A kutatók célja, hogy felhívják a figyelmet: az ilyen támadások sokkal reálisabb veszélyt jelentenek, mint korábban gondolták, és sürgősen szükség van hatékony védekezési stratégiák kidolgozására. Az Anthropic a brit MI Biztonsági Intézettel (UK AI Safety Institute) és az Alan Turing Intézettel (Alan Turing Institute) dolgozott együtt a kutatás során.