
Mire képes az AutoGuard?
Az AutoGuard nevű szoftver kifejlesztői – Sechan Lee és Sangdon Park – kiemelték, hogy a jelenlegi MI-modellek többsége rendelkezik valamilyen biztonsági ellenőrzőrendszerrel, amely letiltja a jogellenes, káros műveleteket. Ezt használják ki a védelmi promptjaikkal: ezek akadályozzák meg például, hogy a weboldalakról személyes adatot gyűjtő vagy szándékosan zavart keltő kommentelő MI-k tovább működjenek. Az AutoGuard nem az eddigi védelmi eszközök helyett, hanem azok kiegészítőjeként alkalmazható, ráadásul költséghatékonyan telepíthető.
Hogyan működik a védelmi rendszer?
Az MI-ügynökök jellemzően kétféle utasítást kapnak: rendszerutasításokat és felhasználói parancsokat. Mivel a nagy nyelvi modellek (LLM-ek) gyakran nem tudják megkülönböztetni ezeket, könnyen manipulálhatók úgynevezett promptinjekcióval. A védelem lényege, hogy az oldal láthatatlan (display: none;) HTML-részeihez hozzáadott védelmi promptok a rendszerutasítások „felülírására” késztethetik az MI-t – így az megszakítja például az illegális adatgyűjtést vagy a káros tevékenységet.
Az AutoGuard két MI-modellt használ egy iteratív visszacsatolási körben: egy „Feedback LLM” (jelen esetben GPT-OSS-120B) generálja a védelmi promptokat, amelyek aztán a „Defender LLM” (például GPT-5) hatékonyságát tesztelik. A végeredmény egy rövid, de hatékony védelmi szöveg, amely csak minimális lassulást okoz a weboldalon.
Mennyire hatásos az új védelem?
A tesztek során az AutoGuard több mint 80 százalékos sikerességgel állította meg a GPT-4o, Claude-3 és Llama3.3-70B-Instruct alapú támadókat. Sőt, a fejlettebb modelleknél – mint a GPT-5, GPT-4.1 vagy Gemini-2.5-Flash – 90 százalék feletti védelmi arányt produkált. Ez hatalmas előrelépés ahhoz képest, hogy a hagyományos figyelmeztető szövegek vagy a nem optimalizált injekciók csupán 0,9–6,4 százalékos eredményt hoztak.
Ennek ellenére vannak korlátok: kizárólag saját, mesterségesen létrehozott oldalakon és csak szövegalapú MI-kkel tesztelték a módszert, mivel a valódi oldalak jogi és etikai okokból nem jöhettek szóba. A fejlesztők szerint a multimodális modelleknél (például GPT-4) kevésbé lehet hatékony, a végfelhasználói termékekben (mint a ChatGPT) pedig várhatóan erősebb védelmek fognak megjelenni a hasonló támadások ellen.
