
Rejtett utasítások a képekben
A támadáshoz eredeti, teljes felbontású képeket készítenek, amelyeken az utasítások szabad szemmel láthatatlanok, de abban a pillanatban láthatóvá válnak, amikor a képet az MI az értelmezés céljából lebutítja. A legtöbb MI-s rendszer a felhasználók által feltöltött képeket automatikusan átméretezi teljesítmény- és költséghatékonysági okokból, például a szomszédos pont, bilineáris vagy bikubikus interpolációval. Ezek az eljárások a képeken speciális mintázatokat hoznak létre – ha a kiinduló kép mintázata ehhez igazodik, az MI számára szövegként értelmezhető rejtett üzenet jelenik meg. Ilyenkor a modell a lebutított képből származó szöveget automatikusan a felhasználói utasításhoz csatolja.
Konkrét támadások és veszélyek
A kutatók példaként említik, hogy egy ilyen manipulált képen keresztül a Zapier MCP használatakor Google Naptár (Google Calendar) adatokat szivárogtattak ki akár tetszőleges email-címre, miközben a rendszer automatikusan minden eszközhasználatot jóváhagyott. A támadást minden MI-modellhez hozzá kell igazítani a használt lekicsinyítő algoritmusnak megfelelően, de már sikerült kompromittálniuk a Google Gemini parancssori felületét (CLI), a Vertex AI Stúdiót (Gemini háttérrel), a Gemini webes felületét és API-ját, a Google Asszisztenst (Google Assistant) Androidon, valamint a Gensparkot is. A sebezhetőség valószínűleg jóval több rendszert is érint.
Védekezés lehetőségei
A kutatók már készítettek egy nyílt forráskódú, de még bétaverzióban lévő eszközt is, amellyel ilyen támadóképek előállíthatók. Védekezésként azt javasolják, hogy az MI-rendszerek szabjanak meg korlátokat a feltölthető képek méretére, és ha szükséges a lebutítás, jelenítsék meg a felhasználónak előnézetben azt a képet, amelyet ténylegesen elküldenek az MI-nek. Fontos lenne, hogy érzékeny műveleteknél vagy ha szöveg kerül elő egy képből, mindig kérjenek visszaigazolást a felhasználótól, illetve az MI-t biztonságtudatos mintákkal tervezzék, hogy az ilyen típusú prompt injection támadásokat is visszaverhessék.