Az MI-ügynökök védelme még mindig gyenge

Az MI-ügynökök védelme még mindig gyenge
Az utóbbi időben két új, figyelemre méltó tanulmány is napvilágot látott a nagy nyelvi modellek (LLM) biztonságával és a prompt injection támadásokkal kapcsolatban. Ezekből egyértelműen kiderül, hogy az MI-alapú rendszerek védelme még korántsem megoldott – sőt, a legtöbb mai módszer könnyedén kijátszható.

Ügynökök szabálya: csak kettőt a háromból!

A Meta új tanulmánya, az Agents Rule of Two (Az ügynökök kettőszabálya) nagyon tömören foglalja össze, hogyan lehetne csökkenteni a prompt injection támadások legsúlyosabb következményeit. Eszerint egy MI-ügynök egy adott munkamenet során legfeljebb két kritikus tulajdonsággal rendelkezhet a háromból: feldolgozhat megbízhatatlan bemeneteket, hozzáférhet érzékeny adatokhoz vagy rendszerekhez, illetve képes lehet állapotváltozást előidézni vagy külső kommunikációt folytatni. Lényeges hangsúlyozni, hogy ha egy ügynöknek mindhárom képességre szüksége van, tilos teljes autonómiával működnie, és legalább emberi felügyeletet igényel.

Ez a megközelítés üdítően egyszerű: a korábbi, lebilincselő hármas például főként csak az adatlopás veszélyére vonatkozott, míg az új szabály a rendszerállapot-módosítás kockázatát is figyelembe veszi. Ettől függetlenül a modellnek van némi korlátja is: a szerzők szerint a megbízhatatlan bemenetek és az állapotváltoztatás kombinációja sem biztonságos, még ha nincs is hozzáférés érzékeny adatokhoz – de e kitétel bevezetése már rontaná a hasznos egyszerűséget.

A támadó mindig egy lépéssel előrébb jár – és átjut a védelmen

Egy másik, még nagyobb visszhangot kiváltó tanulmány 14 neves szerzőtől – köztük az OpenAI-tól, a Google DeepMindtól és az Anthropictól – 12 publikus védelmet, köztük prompt injection és jailbreaking elleni módszert vetett vizsgálat alá. A kutatók úgynevezett adaptív támadásokat alkalmaztak: a támadó algoritmusok vagy emberek többször próbálkozhattak, miközben figyelték a rendszer reakcióit, és menet közben fejlesztették stratégiájukat.

Az eredmény: a vizsgált védelmek túlnyomó többsége elbukott, sokszor több mint 90%-os sikeraránnyal törték át őket. Lényeges, hogy humán tesztelés során – egy 7,4 millió forintos verseny keretében, 500 résztvevővel – minden védelem megadta magát. Ez rávilágít arra, mennyire illuzórikusak a statikus, egyszeri trükkökkel tesztelt védelmek: az adaptív, folyamatosan fejlődő támadások könnyedén túljárnak rajtuk.

Az ellen-védekezés csapdája: minden támadás egyéni válaszokat követel

A támadók több fő módszert is hatékonyan alkalmaztak: a gradiensalapú optimalizációt, a megerősítéses tanulást, de legfőképp a keresésalapú megközelítések bizonyultak eredményesnek. Ez utóbbinál a támadók MI-t használtak arra, hogy támadószövegeket generáljanak, majd MI-alapú minősítési rendszeren szűrték át azokat. Ettől függetlenül még a fejlettebb algoritmusoknál is a humán tesztelők jeleskedtek a leghatékonyabb támadásokban.

A kutatók óvatos optimizmussal fogalmaznak: szerintük az adaptív tesztelés bonyolultabb, de elengedhetetlen, és bíznak benne, hogy az ilyen tesztek emelik majd a védelmek színvonalát. Összefoglalásként megjegyezhető, hogy az új szabályok és felismerések fényében továbbra sincs megbízható, univerzális védelem a prompt injection támadások ellen – az egyetlen járható út az, ha a kettőszabály szerint kialakított rendszerekben eleve korlátozzuk az MI-ügynökök lehetőségeit, és nem hagyjuk, hogy autonóm módon mindhárom kritikus képesség összetalálkozzon egyetlen munkamenetben.

2025, adminboss, simonwillison.net alapján

  • Te mennyire bíznál egy mesterséges intelligencia alapú rendszerben, ha tudnád, hogy a védelme könnyen megkerülhető?
  • Ha te fejlesztenél egy MI-ügynököt, hogyan korlátoznád a képességeit?


Legfrissebb posztok

vasárnap 20:49

A bórax lehetett az élet születésének titkos kulcsa?

💧 A Föld 4,3 milliárd évvel ezelőtti állapotait vizsgálva egy új kutatás szerint ideálisak voltak a körülmények ahhoz, hogy természetes úton alakuljon ki az első információt hordozó molekula, az RNS, amelynek kialakulása az élet születésének kulcsfontosságú mérföldköve...

vasárnap 20:17

Az atomórák csúszása megbénította az időszolgáltatást

Egy ritka és különös eset borzolta fel a NIST, vagyis az Egyesült Államok Országos Szabványügyi és Technológiai Intézetének életét: egy áramszünet következtében összezavarodott az intézet boulderi atomóráinak időskálája, ezért egy munkatárs kétségbeesetten próbálta kikapcsolni a vésztartalék-generátorokat, amelyek továbbra is hibás időt szolgáltattak...

vasárnap 20:02

A láthatatlan alaszkai földrengések csendben jelzik a közelgő cunamit

🌊 Kezdetben pusztán egy újabb távoli veszélynek tűnt a Barry-gleccser fölötti hatalmas földcsuszamlás Alaszkában, de a kutatók közelről vizsgálják a térség rejtett földrengés jeleit...

vasárnap 19:51

Az Xbox kudarcsorozata és a Microsoft nagy irányváltása

💸 Ki gondolta volna, hogy az Xbox ennyire hatalmas lemaradásban lesz a konzolversenyben?..

vasárnap 19:33

Az ókori csatornák felfedik a római Britannia elhallgatott járványát

Érdemes megvizsgálni, milyen egészségügyi kihívásokkal szembesültek a római kori Britannia katonái...

vasárnap 19:18

Az SN 2022ngb, a szinte láthatatlan szupernóva rejtélye

💫 Egy nemzetközi kutatócsoport rendkívül halvány és lassan változó szupernóvát figyelt meg SN 2022ngb jelűként, amely a IIb típusba tartozik...

vasárnap 19:03

A The Sims 4 eddigi legjobb évét zárta

A The Sims 4 rajongói számára az utóbbi évek igazi hullámvasútnak bizonyultak: a kezdeti Építés és Vásárlás (Build and Buy), illetve Sim létrehozása (Create a Sim) módok ugyan szinte etalonná váltak a sorozat történetében, azonban a híres medencék és a kisgyermekek hiányoztak az alapjátékból...

vasárnap 18:49

A tehetség nem sprint, hanem maraton – rosszul gondolkodunk?

🏃 Felmerül a kérdés, vajon helyesen közelítettük-e meg a tehetséggondozást az elmúlt évtizedekben...

vasárnap 18:36

Az új robotporszívó csodát ígér, de csalódást okoz

A Narwal Freo Z10 Ultra egy olyan robotporszívó és felmosó, amely bőven tele van csúcstechnikával, és önálló működésre képes dokkolóval érkezik...

vasárnap 18:18

Az elefánt – az animáció történetének legőrültebb összefogása

Az animáció világában gyakran születnek különleges ötletek, de az Elefánt (Elephant) című, az HBO Maxon elérhető új rajzfilm rendhagyó alkotási folyamata és szürreális hangulata egészen új szintre emeli a kreativitást...

vasárnap 17:51

A láthatatlan univerzum a galaxisok torzulásaiból tárul fel

💫 A világegyetem 95 százaléka láthatatlan. Sötét anyag és sötét energia tölti ki a kozmosz nagy részét, amelyeknek valódi mibenlétét a tudomány máig nem ismeri, de hatásuk tagadhatatlan: a sötét anyag extra gravitációjával formálja a galaxisokat és galaxishalmazokat, míg a sötét energia a táguló világegyetem gyorsulásához kapcsolódik...

vasárnap 17:34

Az űrturizmus áttörése: felszáll az első kerekesszékes űrutazó

🚀 December 21-én hatalmas mérföldkőhöz érkezett az űrutazás, amikor Michaela Benthaus, egy német mérnök, kerekesszékes utazóként elsőként jutott el a világűrbe...

vasárnap 16:50

Az Nvidia-részvény tovább szárnyal: marad a Wall Street kedvence?

Az Nvidia továbbra is az MI-láz egyik legnagyobb nyertese, annak ellenére, hogy az utóbbi időben erősödő versennyel és geopolitikai kihívásokkal néz szembe...

vasárnap 16:02

Az univerzum szimulációja: egy matematikai áttörés mindent átír

A szimulációs hipotézis – az elképzelés, hogy világunk talán csak egy idegen civilizáció számítógépén futó szimuláció – régóta lázban tartja az embereket...

vasárnap 15:33

A klímaváltozás miatt hetekkel előbb szórja spóráit az északi moha

🌱 Régi katonai légmintákból váratlanul értékes DNS-lelőhely került elő, amely évtizedeken keresztül őrizte a levegőben szálló élőlények nyomait...

vasárnap 15:02

A MI-korszak rejtett buktatója: messze van az adat a döntéstől

🤔 Fontos kérdés, hogy mitől lesz valóban eredményes az MI bevezetése egy cég életében...

vasárnap 14:49

Az áttörés kapujában: már látszik a szobahőmérsékletű szupravezetés

⚡ Ebből következően érdemes megérteni, hogy a tudósok most átléptek egy olyan akadályt, amely éveken át megnehezítette a magas hőmérsékletű szupravezetők gyakorlati alkalmazását...

vasárnap 14:33

Az Apple és a Google figyelmeztet: gond lehet a vízumokkal

⚠ A Google és az Apple jogi képviselete arra figyelmeztette a vízummal foglalkoztatott alkalmazottakat, hogy egyelőre kerüljék a nemzetközi utazást, különösen, ha csak H-1B vízumbélyeggel térhetnének vissza az Egyesült Államokba...

vasárnap 14:20

Az óriási JBL Bar 1300 MK2 uralja a nappalit

🔊 A JBL az új Bar 1300MK2-vel ismét belevágott a házimozi-hangzás nagyágyúinak versenyébe, és sikerült is emelnie a tétet...