Az MI-ügynökök védelme még mindig gyenge

Az MI-ügynökök védelme még mindig gyenge
Az utóbbi időben két új, figyelemre méltó tanulmány is napvilágot látott a nagy nyelvi modellek (LLM) biztonságával és a prompt injection támadásokkal kapcsolatban. Ezekből egyértelműen kiderül, hogy az MI-alapú rendszerek védelme még korántsem megoldott – sőt, a legtöbb mai módszer könnyedén kijátszható.

Ügynökök szabálya: csak kettőt a háromból!

A Meta új tanulmánya, az Agents Rule of Two (Az ügynökök kettőszabálya) nagyon tömören foglalja össze, hogyan lehetne csökkenteni a prompt injection támadások legsúlyosabb következményeit. Eszerint egy MI-ügynök egy adott munkamenet során legfeljebb két kritikus tulajdonsággal rendelkezhet a háromból: feldolgozhat megbízhatatlan bemeneteket, hozzáférhet érzékeny adatokhoz vagy rendszerekhez, illetve képes lehet állapotváltozást előidézni vagy külső kommunikációt folytatni. Lényeges hangsúlyozni, hogy ha egy ügynöknek mindhárom képességre szüksége van, tilos teljes autonómiával működnie, és legalább emberi felügyeletet igényel.

Ez a megközelítés üdítően egyszerű: a korábbi, lebilincselő hármas például főként csak az adatlopás veszélyére vonatkozott, míg az új szabály a rendszerállapot-módosítás kockázatát is figyelembe veszi. Ettől függetlenül a modellnek van némi korlátja is: a szerzők szerint a megbízhatatlan bemenetek és az állapotváltoztatás kombinációja sem biztonságos, még ha nincs is hozzáférés érzékeny adatokhoz – de e kitétel bevezetése már rontaná a hasznos egyszerűséget.

A támadó mindig egy lépéssel előrébb jár – és átjut a védelmen

Egy másik, még nagyobb visszhangot kiváltó tanulmány 14 neves szerzőtől – köztük az OpenAI-tól, a Google DeepMindtól és az Anthropictól – 12 publikus védelmet, köztük prompt injection és jailbreaking elleni módszert vetett vizsgálat alá. A kutatók úgynevezett adaptív támadásokat alkalmaztak: a támadó algoritmusok vagy emberek többször próbálkozhattak, miközben figyelték a rendszer reakcióit, és menet közben fejlesztették stratégiájukat.

Az eredmény: a vizsgált védelmek túlnyomó többsége elbukott, sokszor több mint 90%-os sikeraránnyal törték át őket. Lényeges, hogy humán tesztelés során – egy 7,4 millió forintos verseny keretében, 500 résztvevővel – minden védelem megadta magát. Ez rávilágít arra, mennyire illuzórikusak a statikus, egyszeri trükkökkel tesztelt védelmek: az adaptív, folyamatosan fejlődő támadások könnyedén túljárnak rajtuk.

Az ellen-védekezés csapdája: minden támadás egyéni válaszokat követel

A támadók több fő módszert is hatékonyan alkalmaztak: a gradiensalapú optimalizációt, a megerősítéses tanulást, de legfőképp a keresésalapú megközelítések bizonyultak eredményesnek. Ez utóbbinál a támadók MI-t használtak arra, hogy támadószövegeket generáljanak, majd MI-alapú minősítési rendszeren szűrték át azokat. Ettől függetlenül még a fejlettebb algoritmusoknál is a humán tesztelők jeleskedtek a leghatékonyabb támadásokban.

A kutatók óvatos optimizmussal fogalmaznak: szerintük az adaptív tesztelés bonyolultabb, de elengedhetetlen, és bíznak benne, hogy az ilyen tesztek emelik majd a védelmek színvonalát. Összefoglalásként megjegyezhető, hogy az új szabályok és felismerések fényében továbbra sincs megbízható, univerzális védelem a prompt injection támadások ellen – az egyetlen járható út az, ha a kettőszabály szerint kialakított rendszerekben eleve korlátozzuk az MI-ügynökök lehetőségeit, és nem hagyjuk, hogy autonóm módon mindhárom kritikus képesség összetalálkozzon egyetlen munkamenetben.

2025, adminboss, simonwillison.net alapján

  • Te mennyire bíznál egy mesterséges intelligencia alapú rendszerben, ha tudnád, hogy a védelme könnyen megkerülhető?
  • Ha te fejlesztenél egy MI-ügynököt, hogyan korlátoznád a képességeit?



Legfrissebb posztok

MA 21:51

Az újabb bitcoin-zuhanás: 100 000 dollár alatt vagyunk

A bitcoin árfolyama öt hónapos mélypontra, 99 780 dollárra (kb. 35,3 millió forint) esett kedden, így visszatért arra a júniusi szintre, amikor utoljára 100 ezer dollár alatt mozgott...

MA 20:51

Az Apple végre webre költözteti az App Store-t, de ne örülj túl korán

Megújult az Apple webes App Store-ja, amely mostantól áttekinthető felületen gyűjti össze az iPhone, iPad, Mac, Vision Pro, Apple Watch és Apple TV különböző alkalmazáskategóriáit...

MA 20:31

Újabb WordPress-fiaskó: veszélyben a JobMonster adminjogok

🚫 A kiberbűnözők egy súlyos, jogosultság-megkerülési sebezhetőséget használnak ki a népszerű JobMonster WordPress-témában, amely révén adminisztrátori fiókokat is eltulajdoníthatnak...

MA 20:21

Az amerikai DJI drónstop közelebb van, mint gondolnánk

💥 Az Egyesült Államokban egyre nagyobb nyomás nehezedik a kínai DJI dróngyártóra...

MA 20:11

Az új Coca-Cola ünnepi reklám: MI-generált nosztalgia, lélek nélkül

A Coca-Cola ismét az ünnepi szezon középpontjába került, ám idén is inkább visszafogott lelkesedéssel fogadta a közönség a márka legújabb, 2025-ös karácsonyi reklámját...

MA 19:51

Az új Windows Server-frissítés tönkretette a hotpatch-t

A Microsoft sürgősségi, úgynevezett OOB (out-of-band) biztonsági frissítést adott ki, hogy lezárja a WSUS szolgáltatásában felfedezett, aktívan kihasznált sebezhetőséget...

MA 19:30

Az óriási gázerőműből hidrogénes jövő: Los Angeles nagy dobása

Los Angeles új lendületet ad a zöld energiának: a város legnagyobb földgázerőművét részben hidrogénnel működőre alakítják át...

MA 19:01

Az MI még mindig naiv: nem tud különbséget tenni tény és vélemény között

A legújabb kutatások szerint a mai nagyméretű nyelvi modellek, mint a GPT-4o, még mindig komoly gondban vannak azzal, hogy megkülönböztessék a tényeket az emberi hiedelmektől – főleg, ha a hiedelem hamis...

MA 18:50

Az Antarktisz meghökkentő jégolvadása: soha nem látott visszahúzódás

Az Antarktisz egyik gleccsere minden eddiginél gyorsabban húzódott vissza, ami komoly aggodalmat kelt a tengerszint-emelkedés szempontjából...

MA 18:31

Az új Nintendo Switch 2 letarolja az eladásokat

🎮 A Nintendo Switch 2 idén nyáron igazi slágerré vált: július és szeptember között 4,54 millió konzolt adtak el világszerte...

MA 18:21

Az OpenAI gigászi, 13 ezermilliárd forintos felhőbizniszt kötött az Amazonnal

💰 A Microsoft mellett mostantól az Amazon is beszáll az OpenAI MI-modelljeinek fejlesztésébe: többéves, 13 ezermilliárd forintos (38 milliárd dolláros) felhőszerződést jelentettek be, amely azonnal életbe lép...

MA 18:11

Megoldja az okostelefon a kiégést? Az MI tényleg segíthet

💡 Egy friss kutatás jelentős javulást mutatott ki a dolgozói kiégés szintjében, amikor a cégek személyre szabott, mobiltelefonos beavatkozásokat vezettek be...

MA 18:02

Összeomlott az 56 milliárd dolláros segélyrendszer

Az utóbbi időben a nemzetközi segélyrendszer súlyos válságba került, miközben új, innovatív megoldások szinte lehetetlen környezetben is látványos eredményeket hoznak...

MA 17:41

Egy trükkel előhívhatjuk az elfeledett gyermekkori emlékeket

Az emlékek felidézése gyakran nehéz feladat, különösen, amikor fiatalkori, mélyen elrejtett élményekről van szó...

MA 17:31

Az új Google Fordító okosabb, de lassabb lett

💬 A Google Fordító frissítést kapott, amelyben már MI-alapú funkció is segíti a fordítást...

MA 17:21

Az év legnagyobb és legfényesebb szuperholdja jön

🌕 November első napjai igazán látványos égi jelenséget ígérnek: érkezik az év legnagyobb és legfényesebb teliholdja, a nevezetes hódhold, amely idén szuperhold is lesz...

MA 17:12

Egy ősi hal hallása meglepte a tudósokat

🐟 Egy 67 millió éves fosszília alapján a kutatók teljesen új fénybe helyezték az édesvízi halak hallásának fejlődését...

MA 17:01

Az Amazonas védelme rekordcsökkenést hozott a brazil kibocsátásban

Brazília 2024-ben az elmúlt 15 év legnagyobb üvegházhatásúgáz-kibocsátáscsökkenését érte el, miután fokozottan fellépett az Amazonas-erdő irtása ellen...

MA 16:51

Az MI-piacokon még bőven akadnak meglepetések

🤔 Elad Gil, a neves kockázati tőkebefektető szerint a mesterséges intelligencia fejlődése egészen kiszámíthatatlan...