2025. 11. 03., 13:19

Az MI-ügynökök védelme még mindig gyenge

Az MI-ügynökök védelme még mindig gyenge
Az utóbbi időben két új, figyelemre méltó tanulmány is napvilágot látott a nagy nyelvi modellek (LLM) biztonságával és a prompt injection támadásokkal kapcsolatban. Ezekből egyértelműen kiderül, hogy az MI-alapú rendszerek védelme még korántsem megoldott – sőt, a legtöbb mai módszer könnyedén kijátszható.

Ügynökök szabálya: csak kettőt a háromból!

A Meta új tanulmánya, az Agents Rule of Two (Az ügynökök kettőszabálya) nagyon tömören foglalja össze, hogyan lehetne csökkenteni a prompt injection támadások legsúlyosabb következményeit. Eszerint egy MI-ügynök egy adott munkamenet során legfeljebb két kritikus tulajdonsággal rendelkezhet a háromból: feldolgozhat megbízhatatlan bemeneteket, hozzáférhet érzékeny adatokhoz vagy rendszerekhez, illetve képes lehet állapotváltozást előidézni vagy külső kommunikációt folytatni. Lényeges hangsúlyozni, hogy ha egy ügynöknek mindhárom képességre szüksége van, tilos teljes autonómiával működnie, és legalább emberi felügyeletet igényel.

Ez a megközelítés üdítően egyszerű: a korábbi, lebilincselő hármas például főként csak az adatlopás veszélyére vonatkozott, míg az új szabály a rendszerállapot-módosítás kockázatát is figyelembe veszi. Ettől függetlenül a modellnek van némi korlátja is: a szerzők szerint a megbízhatatlan bemenetek és az állapotváltoztatás kombinációja sem biztonságos, még ha nincs is hozzáférés érzékeny adatokhoz – de e kitétel bevezetése már rontaná a hasznos egyszerűséget.

A támadó mindig egy lépéssel előrébb jár – és átjut a védelmen

Egy másik, még nagyobb visszhangot kiváltó tanulmány 14 neves szerzőtől – köztük az OpenAI-tól, a Google DeepMindtól és az Anthropictól – 12 publikus védelmet, köztük prompt injection és jailbreaking elleni módszert vetett vizsgálat alá. A kutatók úgynevezett adaptív támadásokat alkalmaztak: a támadó algoritmusok vagy emberek többször próbálkozhattak, miközben figyelték a rendszer reakcióit, és menet közben fejlesztették stratégiájukat.

Az eredmény: a vizsgált védelmek túlnyomó többsége elbukott, sokszor több mint 90%-os sikeraránnyal törték át őket. Lényeges, hogy humán tesztelés során – egy 7,4 millió forintos verseny keretében, 500 résztvevővel – minden védelem megadta magát. Ez rávilágít arra, mennyire illuzórikusak a statikus, egyszeri trükkökkel tesztelt védelmek: az adaptív, folyamatosan fejlődő támadások könnyedén túljárnak rajtuk.

Az ellen-védekezés csapdája: minden támadás egyéni válaszokat követel

A támadók több fő módszert is hatékonyan alkalmaztak: a gradiensalapú optimalizációt, a megerősítéses tanulást, de legfőképp a keresésalapú megközelítések bizonyultak eredményesnek. Ez utóbbinál a támadók MI-t használtak arra, hogy támadószövegeket generáljanak, majd MI-alapú minősítési rendszeren szűrték át azokat. Ettől függetlenül még a fejlettebb algoritmusoknál is a humán tesztelők jeleskedtek a leghatékonyabb támadásokban.

A kutatók óvatos optimizmussal fogalmaznak: szerintük az adaptív tesztelés bonyolultabb, de elengedhetetlen, és bíznak benne, hogy az ilyen tesztek emelik majd a védelmek színvonalát. Összefoglalásként megjegyezhető, hogy az új szabályok és felismerések fényében továbbra sincs megbízható, univerzális védelem a prompt injection támadások ellen – az egyetlen járható út az, ha a kettőszabály szerint kialakított rendszerekben eleve korlátozzuk az MI-ügynökök lehetőségeit, és nem hagyjuk, hogy autonóm módon mindhárom kritikus képesség összetalálkozzon egyetlen munkamenetben.

2025, adminboss, simonwillison.net alapján

  • Te mennyire bíznál egy mesterséges intelligencia alapú rendszerben, ha tudnád, hogy a védelme könnyen megkerülhető?
  • Ha te fejlesztenél egy MI-ügynököt, hogyan korlátoznád a képességeit?


Legfrissebb posztok

szombat 21:46

Az otthoni iroda trónja: gamer szék, ami mindent túlél

💪 Ami kezdetben ártalmatlannak tűnt, az utóbbi években jelentősen megváltozott: világszerte milliók home office-ba kényszerültek, ami alaposan átrajzolta, mit várunk el az irodabútortól...

szombat 21:01

Az Andes-vírus rejtett kockázatai: mi számít közeli kontaktusnak?

A közelmúltban egy tengerjáró hajón történt hantavírus-kitörés miatt jelenleg mintegy 150 utast figyelnek meg, illetve akár hathetes karanténba is helyeznek...

szombat 20:56

Az XRP lenyomta a Bitcoint, de a nagy ralihoz kell a Kongresszus

📈 Az XRP ára jelentősen megugrott, miután az amerikai szenátus bankügyi bizottsága előrelépést tett a Digital Asset Market Clarity Act ügyében...

szombat 20:46

A nyolcéves afroamerikai kisfiú rejtélye: fehér telepesek közé temetve Marylandben

🕵 Egy 17. századi marylandi temető különös titkot rejtett: egy mindössze nyolcéves fiú földi maradványait találták meg, aki túlnyomórészt afrikai származású volt...

szombat 20:34

Az agy rejtett tápanyaghiánya állhat a szorongás mögött

Az agyunk működése mögötti titkos összetevőkre újabb fény vetült: amerikai kutatók felfedezték, hogy a tartós szorongással élőknél kimutathatóan kevesebb található egy létfontosságú agyi tápanyagból, amelyet az emberek többsége amúgy is hiányosan visz be...

szombat 20:22

Az elszálló energia- és műtrágyaárak kétségbe ejtik a gazdákat

Felmerül a kérdés, meddig bírják még a mezőgazdasági termelők a folyamatosan növekvő költségeket...

szombat 20:12

A Google nem veszi el a 15 GB-ot – számot kér érte

💰 Az új Gmail-fiókok tulajdonosai néhány országban kellemetlen meglepetéssel szembesülnek: a megszokott 15 GB ingyenes tárhely helyett kezdetben csak 5 GB-ot kapnak...

szombat 20:01

A kriptós hozaméhség milliárdokat sodor hackerveszélybe

A decentralizált pénzügyek világa 2020-ban új alapokra helyezte a digitális pénzügyeket: közvetítők nélkül, globálisan elérhető rendszert ígért...

szombat 19:55

Az öregedés és krónikus betegségek mögött apró bélrészecskék rejtőzhetnek

🤒 Az öregedéssel és krónikus betegségekkel kapcsolatban egészen új tényezőt fedeztek fel a kutatók: a bélben képződő parányi részecskék, úgynevezett exoszómák is kulcsszerepet játszhatnak a szervezet gyulladásos folyamataiban...

szombat 19:34

A MercurySteam-nél zajló fájdalmas leépítések közepette érkezik a Blades of Fire Steamen

A Metroid Dread fejlesztőjeként ismert MercurySteam komoly változások elé néz: a stúdió kénytelen volt elbocsátásokat bejelenteni, miközben legújabb akciójátékuk, a God of War-hangulatú Blades of Fire végre Steamen is elérhetővé vált...

szombat 19:23

Az óceán mélyén felfedezett fékek állítják meg a hatalmas földrengéseket

Több mint 1600 kilométerrel Ecuador partjaitól nyugatra, a Csendes-óceán mélyén található Gofar-törésvonal már legalább harminc éve szinte óraműpontossággal produkál nagy, 6-os erősségű földrengéseket...

szombat 19:01

A szenzációs etióp ősmaradvány átírja az emberi eredet történetét

👑 A legújabb etiópiai leletek alaposan átírják, amit az emberi fejlődésről eddig tudtunk...

szombat 18:55

Az univerzum rejtett főútjai: először fotózták le a kozmikus hálót

💫 A tudósoknak most először sikerült közvetlenül lefotózniuk a kozmikus hálót, vagyis azt a rejtett, óriási anyaghálózatot, amely a galaxisokat kapcsolja össze az univerzumban...

szombat 18:45

A 293 millió dolláros KelpDAO-hack: a DeFi felnövésre kényszerül

A decentralizált pénzügyek (DeFi) világa új korszakhoz érkezett: a KelpDAO-nál történt közel 108 milliárd forintnyi (293 millió dollár) értékű hackertámadás világossá tette, hogy már nem elsősorban a programozási hibák jelentik a fő veszélyt, hanem a rendszerek egyre növekvő összetettsége és a mögöttes infrastruktúra...

szombat 18:34

A végső falat: közeleg A Mackó utolsó évada

🍽 Ki hinné, hogy egy chicagói étterem konyhája ilyen hamar meghódítja a világot?..

szombat 17:23

A Chelsea–Man City FA-kupa-döntő: ingyenes közvetítések, csatornák, csapathírek

⚽ A 2026-os FA Kupa-döntőben két olyan csapat csap össze, amelyek számára kulcsfontosságú a győzelem – bár mindkettő csalódásokkal teli időszakot igyekszik felejteni...

szombat 17:12

A Lenovo csodatöltője itt van – de sosem juthatsz hozzá

⚡ Megérkezett a Lenovo Legion P5 10000, amely kis mérettel és megnyerő dizájnnal igyekszik minden helyzetben biztosítani a töltöttséget...

szombat 16:02

A Googlebook alig debütált, máris 5 dolog, amit utálnak benne

👎 Ez a jelenség jól illusztrálható azzal, hogy alig jelentették be a Google legfrissebb laptopját, a Googlebookot, máris komoly negatív visszhangot kelt az interneten...

szombat 15:35

A Dyson HushJet kompakt légtisztító: csendes erő kis méretben

💫 Fontos kérdés, hogy lehet-e egy légszűrő egyszerre kicsi, halk és mégis nagy teljesítményű...

szombat 15:13

Az ingyenes videoszerkesztő, amely felforgatja a fotósok és filmesek világát

Az utóbbi években óriási átalakulás ment végbe abban, ahogyan fényképeket és videókat készítünk...

szombat 14:56

A raidek? Ugyan: a horgászat a Final Fantasy XIV igazi pokla

A világ vége már többször elmaradt, de egyetlen hal kifogása még mindig lehetetlen küldetésnek tűnik...

szombat 14:46

Az e heti tudomány: új név a PCOS-nek, neandervölgyi fogorvosok, idegen kristály

Május közepén különösen sok izgalmas tudományos felfedezés került napvilágra. Az egészségügytől kezdve a történelem előtti fogorvoslásig, sőt, egészen a nukleáris kísérletek által született különleges kristályokig szóltak a hírek – és ezek nem csupán a tudósokat, hanem a hétköznapi embereket is gondolkodásra késztették...

szombat 14:35

A Fallout alkotója szerint akár horkoló tehéngyűlölő, ufóhívő is lehettél volna

👽 A Fallout ma már legendás szerepjátékrendszere, a S.P.E.C.I.A.L., csak a játékfejlesztés utolsó szakaszában került képbe...

szombat 14:23

A nászharangok szólnak: Taylor Swift és Travis Kelce randiznak New Yorkban

Különösen igaz ez akkor, ha két világsztár randevúzik a reflektorfény közepén: Taylor Swift és párja, Travis Kelce ismét együtt mutatkoztak New Yorkban...

szombat 14:01

A növényektől is elkaphatunk betegséget?

🌲 A sci-fi filmek gyakran rémisztgetnek azzal, hogy az emberek növényi kórokozóktól kapnak halálos fertőzéseket, de vajon reális ez a forgatókönyv?..

szombat 13:56

A LIRR új sztrájkja napokra megbénítja egész New Yorkot

A Long Island Rail Road (LIRR) dolgozói hajnalban sztrájkba kezdtek, miután péntek este zátonyra futottak a bértárgyalások...

szombat 13:34

A hét 7 legnagyobb techsztorija: Android 17-től a feltört kriptotárcáig

🚀 Április közepe technológiai fronton igazán eseménydúsan telt: a legnagyobb mobiloperációs rendszerek frissítései és néhány szokatlan újdonság is napvilágot látott...

szombat 13:23

Az év meccse: ma dől el a skót cím, Celtic–Hearts

Az idei skót bajnokság utolsó nagy összecsapása minden eddiginél feszültebbnek ígérkezik, hiszen eldől, kié lesz a bajnoki cím: a többszörös győztes Celtic vagy a bajnoki aranyra 66 éve éhező Hearts örülhet a lefújáskor...

szombat 12:56

A frissen felfedezett, kékbálna-méretű aszteroida hétfőn szinte súrolja a Földet – nézd élőben!

🚀 Egy kivételesen nagy, frissen felfedezett aszteroida, amely akár 35 méter átmérőjű is lehet, hétfőn szokatlanul közel száguld el a Föld mellett, ráadásul élőben is megtekinthető lesz...