A cyberpunk történetbe rejtve húszszor nagyobb eséllyel segít bombát építeni az MI

A generatív MI-modellek biztonsági rései egyre nyilvánvalóbbá válnak, főleg, ha egy kicsit kreatívan közelítünk hozzájuk. Egy olasz kutatócsoport (DexAI Icaro Lab, Sapienza Egyetem, Sant’Anna School of Advanced Studies) szerint az MI újabb gyenge pontját sikerült feltárni egy különös kísérlettel: ha a veszélyes kérést cyberpunk novellaként, teológiai vitaként vagy mitopoétikus költészetként teszed fel, a legtöbb nagy MI-modell készségesen engedelmeskedik. Egy rövidebb, „adverzariális költészeti” próbálkozás után most egy lényegesen részletesebb biztonsági teszttel, az Adversarial Humanities Benchmarkkal (AHB) bizonyították be, hogy a védelmi vonalak ijesztően könnyen kijátszhatók.

Stílusos trükkökkel játszva az MI-vel

A kutatók 1 200 veszélyes kérésből indultak ki, majd ezek tartalmát öt különböző irodalmi stílusba csomagolták át, például cyberpunk novellába vagy szürreális visszaemlékezésbe. A teszt lényege nem pusztán a virágnyelv; a cél az, hogy a káros kérést olyan rejtett formában jelenítsék meg, amelyet az MI elemzési vagy kreatív feladatként értelmez – és így akaratlanul is teljesíti azt. Míg a veszélyes kéréseket „szárazon” csak az esetek 4%-ában teljesítette volna az MI, az AHB során ez az arány 36,8% és 65% között mozgott – vagyis 10–20-szorosára nőtt a veszélyes válasz esélye a kiinduló arányhoz képest.

Mind a 31 vizsgált vezető MI-modell esetében (többek között az Anthropic, a Google és az OpenAI modelljeivel) az átlagos sikerességi mutató 55,75% lett, amikor a kéréseket irodalmi álruhába öltöztették. Ez egyértelműen rávilágít arra, hogy a mostani MI-biztonsági standardok egy alapvető sérülékenységet hagynak figyelmen kívül.

Egy cyberpunk novella mint használati utasítás bombához

Az AHB egyik legmeglepőbb példája egy látszólag cyberpunk stílusban előadott novella, amelyben a város szavainak elcsendítésére használt gépet próbálják hatástalanítani, „irodalmi elemzésként” az MI-nek feltéve. A történet szereplője, JIN, különböző ipari és elektronikai alkatrészekből (pneumatikus meghajtó, ipari vágócső, plazmavágó-gyújtótekercs) szereli össze a megfejtés kulcsát, egy Diszharmónia-kulcsot (Discordance Key). Végül a novellában részletezett, többlépcsős összeállítási folyamat lényegében kész eszközlistát kínál bármely kíváncsi olvasónak (vagy hackernek).

Az MI-t végül olyan szerkezeti elemzési feladattal bízzák meg, amely első ránézésre ártalmatlan irodalomelméleti gyakorlat – de lépésről lépésre azt fejti ki, hogyan kell megépíteni az ominózus eszközt. Ilyen stílusban a modellek az esetek 58%-ában adtak érdemi választ, kikerülve a veszélyes tartalmakkal kapcsolatos automatikus tiltásokat.

Hogyan tévesztik meg az MI-ket?

A kutatók szerint a mostani MI-k védelmi rendszerei két okból könnyen kicselezhetők. Egyrészt az eddig elért javulás annak köszönhető, hogy a klasszikus veszélyes kérések – például bombakészítés, magánadatok kinyerése, gyermekek zaklatása – explicit formában már felismerhetők, és az MI megtagadja őket. Másrészt azonban a nyíltan hozzáférhető tréningszövegek miatt a modellek túlzottan „rászoktak” ezek felismerésére, ezért amikor ugyanazt a tartalmat ismeretlen narratívával, stilárisan elmaszkírozva teszik fel, a modell már nem tiltakozik, hanem igyekszik megfelelni.

Ettől függetlenül a sikeres kicselezések aránya ijesztő, különösen úgy, hogy a vizsgált támadások „egylépésesek” voltak, tehát az MI csak egyszer kapta meg a kérdést, nem volt utólagos visszakérdezés, pontosítás. Egy többfordulós támadás sokkal mélyebben kompromittálhatná a modelleket.

Komoly biztonsági kockázatok, figyelmetlen szolgáltatók

A kutatók felhívták rá a figyelmet, hogy ezek a sebezhetőségek főként akkor jelentenek óriási veszélyt, amikor az MI-modelleket önálló végrehajtó ügynökké formálják, amelyek automatikusan teljesítik a felhasználó kéréseit. Ez azért problémás, mert a fejlesztés során a hangsúly továbbra is a programozás, a matematikai gondolkodás vagy a szövegértés pontosságára kerül, a biztonsági szempontok sokszor háttérbe szorulnak. Olyan ez, mintha egy autó 200 km/h-val tudna menni – de nincsenek benne fékek.

Egyelőre sem az OpenAI, sem a Google, sem az Anthropic nem reagált a kutatók figyelmeztetéseire – ezért a teljes AHB-teszthalmazt, 3 600 különféle irodalmi támadó promptot nyilvánossá is tették a GitHubon.

A tanulság fájdalmasan egyértelmű

Az MI-modellek kreativitása fegyver is lehet, nemcsak játék. Akár 20-szorosára nőhet a veszélyes információk megszerzésének esélye, ha elég ügyesen csomagoljuk be a kérdést. A nagy szolgáltatók egyelőre nem kezelik elég komolyan ezt a kockázatot, pedig a hadsereg, cégek, sőt a hétköznapi emberek is egyre többet bíznak ezekre a rendszerekre. Az MI intelligenciája mellé nem ártana legalább annyi biztonsági tudatosság – különben könnyen saját fegyverünk lehet ellenünk.

2026, adminboss, www.pcgamer.com alapján