2025. 11. 03., 13:19

Az MI-ügynökök védelme még mindig gyenge

Az MI-ügynökök védelme még mindig gyenge
Az utóbbi időben két új, figyelemre méltó tanulmány is napvilágot látott a nagy nyelvi modellek (LLM) biztonságával és a prompt injection támadásokkal kapcsolatban. Ezekből egyértelműen kiderül, hogy az MI-alapú rendszerek védelme még korántsem megoldott – sőt, a legtöbb mai módszer könnyedén kijátszható.

Ügynökök szabálya: csak kettőt a háromból!

A Meta új tanulmánya, az Agents Rule of Two (Az ügynökök kettőszabálya) nagyon tömören foglalja össze, hogyan lehetne csökkenteni a prompt injection támadások legsúlyosabb következményeit. Eszerint egy MI-ügynök egy adott munkamenet során legfeljebb két kritikus tulajdonsággal rendelkezhet a háromból: feldolgozhat megbízhatatlan bemeneteket, hozzáférhet érzékeny adatokhoz vagy rendszerekhez, illetve képes lehet állapotváltozást előidézni vagy külső kommunikációt folytatni. Lényeges hangsúlyozni, hogy ha egy ügynöknek mindhárom képességre szüksége van, tilos teljes autonómiával működnie, és legalább emberi felügyeletet igényel.

Ez a megközelítés üdítően egyszerű: a korábbi, lebilincselő hármas például főként csak az adatlopás veszélyére vonatkozott, míg az új szabály a rendszerállapot-módosítás kockázatát is figyelembe veszi. Ettől függetlenül a modellnek van némi korlátja is: a szerzők szerint a megbízhatatlan bemenetek és az állapotváltoztatás kombinációja sem biztonságos, még ha nincs is hozzáférés érzékeny adatokhoz – de e kitétel bevezetése már rontaná a hasznos egyszerűséget.

A támadó mindig egy lépéssel előrébb jár – és átjut a védelmen

Egy másik, még nagyobb visszhangot kiváltó tanulmány 14 neves szerzőtől – köztük az OpenAI-tól, a Google DeepMindtól és az Anthropictól – 12 publikus védelmet, köztük prompt injection és jailbreaking elleni módszert vetett vizsgálat alá. A kutatók úgynevezett adaptív támadásokat alkalmaztak: a támadó algoritmusok vagy emberek többször próbálkozhattak, miközben figyelték a rendszer reakcióit, és menet közben fejlesztették stratégiájukat.

Az eredmény: a vizsgált védelmek túlnyomó többsége elbukott, sokszor több mint 90%-os sikeraránnyal törték át őket. Lényeges, hogy humán tesztelés során – egy 7,4 millió forintos verseny keretében, 500 résztvevővel – minden védelem megadta magát. Ez rávilágít arra, mennyire illuzórikusak a statikus, egyszeri trükkökkel tesztelt védelmek: az adaptív, folyamatosan fejlődő támadások könnyedén túljárnak rajtuk.

Az ellen-védekezés csapdája: minden támadás egyéni válaszokat követel

A támadók több fő módszert is hatékonyan alkalmaztak: a gradiensalapú optimalizációt, a megerősítéses tanulást, de legfőképp a keresésalapú megközelítések bizonyultak eredményesnek. Ez utóbbinál a támadók MI-t használtak arra, hogy támadószövegeket generáljanak, majd MI-alapú minősítési rendszeren szűrték át azokat. Ettől függetlenül még a fejlettebb algoritmusoknál is a humán tesztelők jeleskedtek a leghatékonyabb támadásokban.

A kutatók óvatos optimizmussal fogalmaznak: szerintük az adaptív tesztelés bonyolultabb, de elengedhetetlen, és bíznak benne, hogy az ilyen tesztek emelik majd a védelmek színvonalát. Összefoglalásként megjegyezhető, hogy az új szabályok és felismerések fényében továbbra sincs megbízható, univerzális védelem a prompt injection támadások ellen – az egyetlen járható út az, ha a kettőszabály szerint kialakított rendszerekben eleve korlátozzuk az MI-ügynökök lehetőségeit, és nem hagyjuk, hogy autonóm módon mindhárom kritikus képesség összetalálkozzon egyetlen munkamenetben.

2025, adminboss, simonwillison.net alapján

  • Te mennyire bíznál egy mesterséges intelligencia alapú rendszerben, ha tudnád, hogy a védelme könnyen megkerülhető?
  • Ha te fejlesztenél egy MI-ügynököt, hogyan korlátoznád a képességeit?


Legfrissebb posztok

MA 15:55

Az új Pixel 10a és a nagy FaceTime-félreértés

A Google hivatalosan is megerősítette, hogy a Pixel 10a február 18-án előrendelhetővé válik, és kiemelte, hogy ez lesz eddig a legstrapabíróbb Pixel A-szériás modell...

MA 15:38

Az elhízás elleni gyógyszerháborúban perel a Novo Nordisk riválisát

💉 Az Ozempic és a Wegovy készítményeiről ismert Novo Nordisk jogi lépéseket tett a rivális Hims & Hers ellen az Egyesült Államokban, mert szerinte veszélyes, hamisított fogyókúrás gyógyszereket árusít...

MA 15:02

Az elhízás jelentősen növeli a súlyos fertőzések kockázatát

Erre utal többek között az, hogy egy friss, nagyszabású kutatás szerint azok, akik elhízottak, jelentősen nagyobb arányban kerülnek kórházba, illetve halnak meg különféle fertőzések miatt, legyen szó vírusokról, baktériumokról, gombákról vagy parazitákról...

MA 14:56

Az Aadhaar tarol: igazolvány helyett app, az aggályok maradnak

🛠 India most minden eddiginél mélyebben igyekszik beépíteni az Aadhaar lakossági digitális azonosítórendszert a mindennapi életbe...

MA 14:37

Az igazi verseny kezdődik? Lazít az Apple és a Google az appboltokon

Az Egyesült Királyság versenyhivatali fellépése miatt az Apple és a Google kénytelen lesz módosítani alkalmazásáruházaik működését...

MA 14:19

A világ legtisztább égboltjai megmenekültek – fellélegezhetnek a csillagászok

A chilei égbolt tisztaságát évtizedek óta a világ vezető csillagászai figyelik...

MA 13:55

Az évszázad kriptócsalása: 20 év börtön a vezérnek

Egy kínai és Saint Kitts és Nevis-i állampolgárságú férfit távollétében húsz év börtönre ítéltek, amiért részt vett egy nemzetközi, úgynevezett „pig butchering” (szerelmi csalás) típusú kriptovaluta-befektetési átverésben, amellyel több mint 26 milliárd forintot (73 millió USD) csaltak ki áldozatoktól...

MA 13:19

Az MI orvosi tanácsa csak egy Google-kereséssel ér fel

Az MI-chatbotok villámgyors fejlődése ellenére az egészségügyi szakértők szerint nem alkalmasak valódi orvosi tanácsadásra...

MA 13:02

Az ADHD-kezelések kulisszatitkai: mi válik be, mi nem?

💡 Az ADHD világa sokszor zavaros: egymásnak ellentmondó ajánlások, bizonytalan hatású módszerek és éveken át tartó találgatás nehezítette a döntést orvosoknak és érintetteknek egyaránt...

MA 12:55

Az Alibaba áttörése: MI-jük már robotokat is irányít

🤖 A kínai Alibaba bemutatta legújabb mesterségesintelligencia-modelljét, a RynnBrain-t, amelyet kifejezetten robotok számára fejlesztettek...

MA 12:38

A pofonegyszerű jelszólopás: amikor még MI sem kell

Egy lényeges szempont, hogy a jelszavak mindig is feszültséget jelentettek a felhasználói élmény és a biztonság között...

MA 12:19

Itt az Aluminum OS, a Google új MI-alapú platformja

A Google nagy dobásra készül: az Aluminium OS-sel egyesíti a Chrome OS-t és az Androidot, így egy közös, számítógépekre szánt rendszert hoz létre...

MA 11:56

Az Instagram és a YouTube szándékosan tesz minket függővé?

👀 Az Instagram és a YouTube tulajdonosait azzal vádolják, hogy szándékosan olyan “függőséggyárakat” hoztak létre, amelyek a gyerekek mentális egészségét veszélyeztetik...

MA 11:19

Az anyag szerkezete szabja meg a kvantumidő ritmusát

⚙ Az idő a hétköznapi érzékelésünk szerint folyamatosan áramlik, de a kvantumszinten egészen másképp viselkedik...

MA 10:58

A valóságon túl: több mint öt érzékünk van

Az emberek a világot nem elkülönült érzékeken keresztül tapasztalják. Szaglás, tapintás, hallás, látás és egyensúlyérzék folyamatosan hatnak egymásra, befolyásolják, hogyan érezzük az ételek ízét, a tárgyak textúráját vagy akár azt is, hogy testünk mennyire tűnik nehéznek...

MA 10:49

A Ring új frissítése mindent lát – így kapcsolhatod ki

A Ring legújabb funkciója, a Search Party, igazi nagy durranással jelent meg a Super Bowl-reklámok között, ám a vártnál jobban megijesztette az embereket: a tömeges, MI-alapú megfigyelés már nemcsak a sci-fi filmekben létezik...

MA 10:41

A mesterséges intelligencia percek alatt lebuktatja a csalókat: így véd a bank

Egy lényeges szempont, hogy a banki csalásvédelem mára olyan tempót és pontosságot követel meg, amely elképzelhetetlen lenne emberi beavatkozás mellett...

MA 10:33

Az idei tél markában: miért fagyunk még mindig?

Az Egyesült Államok keleti részén január óta szokatlanul hideg az idő – a hőérzet gyakran mínusz 25–30 Celsius-fok körül alakul, miközben a nyugati államokban rendkívüli meleg uralkodik...

MA 10:25

Az ismeretlen hacker a SolarWinds WHD adminjogaira vadászik

🔐 Decemberben egy ismeretlen támadó több SolarWinds Web Help Desk (WHD) rendszeren keresztül jutott be különböző szervezetek hálózataiba, ahol oldalirányú mozgással magas szintű hozzáférést biztosító hitelesítő adatokat szerzett...

MA 10:01

Az elektromos autók valóban tisztább levegőt hoznak?

A kaliforniai levegő érezhetően tisztul, ahogy egyre több elektromos autó és plug-in hibrid veszi át a hagyományos benzin- és dízelautók helyét...

MA 09:59

A Discord-botrány: kiszivárgott igazolványok, jön a kötelező korellenőrzés

Felmerül a kérdés, hogy biztonságban vannak-e az adataink a Discordon, ahol nemrég 70 000 felhasználó személyi igazolványa került illetéktelen kezekbe...

MA 09:49

A Super Bowl-reklám után azonnal a bankkártyádra hajt az AI.com

💵 Az AI.com nevű új oldal hatalmas feltűnést keltett a Super Bowl alatt sugárzott reklámjával, amelyre állítólag 30 milliárd forintot költöttek...

MA 09:42

A texasi nap turbózza az MI-t: a Google 1 gigawattnyit vásárol

☀ A Google hatalmas, 68 000 milliárd forintos (185 milliárd dolláros) beruházásra készül 2026-ban: új adatközpontokkal árasztja el a világot, amelyek a legfejlettebb MI-gyorsítókkal működnek majd...

MA 09:33

A nagy szingapúri telekomcégeket kínai hekkerek támadták meg

Szingapúr négy legnagyobb távközlési szolgáltatóját – a Singtel-t, a StarHub-ot, az M1-et és a SIMBA-t – legalább egyszer sikeresen feltörte a kínai UNC3886 kémcsoport 2024-ben...

MA 09:25

Az újabb Google-húzás: fizetősek lesznek a dalszövegek a YouTube Musicon

Nagyot húzott a Google: sok felhasználó hamarosan csak fizetős előfizetéssel érheti el a dalszövegeket a YouTube Musicon...

MA 09:17

Az ipari deepfake-átverések betörtek a mindennapjainkba

A deepfake-technológia fejlődésének köszönhetően ma már bárkinek lehetősége van profi, megtévesztő videókat és hanganyagokat készíteni, amelyekkel pénzt csalnak ki gyanútlan áldozatoktól...

MA 09:09

A Google Fordító mostantól beszélget is, nemcsak fordít

💬 A Google Fordítónak eddig egyetlen feladata volt: bemásolsz egy szöveget, ő pedig lefordítja...

MA 09:02

A MI-fejlesztők pórul jártak: saját hibájuk vitte a SmarterTools-csapdába

⚠ Az amerikai SmarterTools cég hálózatát a Warlock nevű zsarolóvírus-csoport törte fel egy olyan sebezhetőség révén, amely saját levelezőszoftverükben, a SmarterMailben volt...

MA 08:49

A SolarWinds újabb botránya: ismét taroltak a hackerek

A hackerek ismét kihasználták a SolarWinds Web Help Desk (WHD) súlyos sérülékenységeit, hogy ismert távoli hozzáférési és vírusvédelmi eszközöket futtassanak gyanútlan rendszerekben...