2025. 11. 03., 13:19

Az MI-ügynökök védelme még mindig gyenge

Az MI-ügynökök védelme még mindig gyenge
Az utóbbi időben két új, figyelemre méltó tanulmány is napvilágot látott a nagy nyelvi modellek (LLM) biztonságával és a prompt injection támadásokkal kapcsolatban. Ezekből egyértelműen kiderül, hogy az MI-alapú rendszerek védelme még korántsem megoldott – sőt, a legtöbb mai módszer könnyedén kijátszható.

Ügynökök szabálya: csak kettőt a háromból!

A Meta új tanulmánya, az Agents Rule of Two (Az ügynökök kettőszabálya) nagyon tömören foglalja össze, hogyan lehetne csökkenteni a prompt injection támadások legsúlyosabb következményeit. Eszerint egy MI-ügynök egy adott munkamenet során legfeljebb két kritikus tulajdonsággal rendelkezhet a háromból: feldolgozhat megbízhatatlan bemeneteket, hozzáférhet érzékeny adatokhoz vagy rendszerekhez, illetve képes lehet állapotváltozást előidézni vagy külső kommunikációt folytatni. Lényeges hangsúlyozni, hogy ha egy ügynöknek mindhárom képességre szüksége van, tilos teljes autonómiával működnie, és legalább emberi felügyeletet igényel.

Ez a megközelítés üdítően egyszerű: a korábbi, lebilincselő hármas például főként csak az adatlopás veszélyére vonatkozott, míg az új szabály a rendszerállapot-módosítás kockázatát is figyelembe veszi. Ettől függetlenül a modellnek van némi korlátja is: a szerzők szerint a megbízhatatlan bemenetek és az állapotváltoztatás kombinációja sem biztonságos, még ha nincs is hozzáférés érzékeny adatokhoz – de e kitétel bevezetése már rontaná a hasznos egyszerűséget.

A támadó mindig egy lépéssel előrébb jár – és átjut a védelmen

Egy másik, még nagyobb visszhangot kiváltó tanulmány 14 neves szerzőtől – köztük az OpenAI-tól, a Google DeepMindtól és az Anthropictól – 12 publikus védelmet, köztük prompt injection és jailbreaking elleni módszert vetett vizsgálat alá. A kutatók úgynevezett adaptív támadásokat alkalmaztak: a támadó algoritmusok vagy emberek többször próbálkozhattak, miközben figyelték a rendszer reakcióit, és menet közben fejlesztették stratégiájukat.

Az eredmény: a vizsgált védelmek túlnyomó többsége elbukott, sokszor több mint 90%-os sikeraránnyal törték át őket. Lényeges, hogy humán tesztelés során – egy 7,4 millió forintos verseny keretében, 500 résztvevővel – minden védelem megadta magát. Ez rávilágít arra, mennyire illuzórikusak a statikus, egyszeri trükkökkel tesztelt védelmek: az adaptív, folyamatosan fejlődő támadások könnyedén túljárnak rajtuk.

Az ellen-védekezés csapdája: minden támadás egyéni válaszokat követel

A támadók több fő módszert is hatékonyan alkalmaztak: a gradiensalapú optimalizációt, a megerősítéses tanulást, de legfőképp a keresésalapú megközelítések bizonyultak eredményesnek. Ez utóbbinál a támadók MI-t használtak arra, hogy támadószövegeket generáljanak, majd MI-alapú minősítési rendszeren szűrték át azokat. Ettől függetlenül még a fejlettebb algoritmusoknál is a humán tesztelők jeleskedtek a leghatékonyabb támadásokban.

A kutatók óvatos optimizmussal fogalmaznak: szerintük az adaptív tesztelés bonyolultabb, de elengedhetetlen, és bíznak benne, hogy az ilyen tesztek emelik majd a védelmek színvonalát. Összefoglalásként megjegyezhető, hogy az új szabályok és felismerések fényében továbbra sincs megbízható, univerzális védelem a prompt injection támadások ellen – az egyetlen járható út az, ha a kettőszabály szerint kialakított rendszerekben eleve korlátozzuk az MI-ügynökök lehetőségeit, és nem hagyjuk, hogy autonóm módon mindhárom kritikus képesség összetalálkozzon egyetlen munkamenetben.

2025, adminboss, simonwillison.net alapján

  • Te mennyire bíznál egy mesterséges intelligencia alapú rendszerben, ha tudnád, hogy a védelme könnyen megkerülhető?
  • Ha te fejlesztenél egy MI-ügynököt, hogyan korlátoznád a képességeit?


Legfrissebb posztok

MA 09:42

Miért eszik meg a gyerekek a saját taknyukat?

🤢 A gyerekek, felnőttek és más főemlősök, például a csimpánzok is ismertek arról, hogy piszkálják az orrukat és megeszik a taknyukat...

MA 09:33

A Hims & Hers lebukott: hamis fogyókúrás tablettákat árult

💊 A Hims & Hers szombaton bejelentette, hogy leállítja a Wegovy másolatának értékesítését, miután a Novo Nordisk és az amerikai Élelmiszer- és Gyógyszerügyi Hatóság (FDA) jogi lépésekkel fenyegette meg a távegészségügyi szolgáltatót...

MA 09:25

Az Anthropic örökre lemondott a reklámokról – de vajon tartható ez az ígéret?

🤔 Az Anthropic csatlakozott azon márkák hosszú listájához, amelyek megfogadták, hogy reklámmentes maradnak...

MA 09:08

A Waymo Fülöp-szigeteki dolgozói csendben irányítják az önvezető autókat

A Waymo szerdán meglepte az amerikai törvényhozókat egy autonóm járművekkel foglalkozó meghallgatáson...

MA 08:56

Az olvasás halála: tévhit vagy valóság?

Valóban szétrombolták a digitális technológiák a figyelmünket, és kiszorították a könyveket a kultúránkból?..

MA 08:50

Az emberiség közös ősére deríthet fényt egy 773 000 éves marokkói lelet

🦴 Egy marokkói barlangból előkerült fosszíliák kivételes pontossággal, körülbelül 773 000 évvel ezelőttre datálhatók, köszönhetően a környező üledékekben rögzült mágneses lenyomatnak...

MA 08:41

A Bitcoin 50%-os zuhanása nem válság, hanem természetes volatilitás

Gary Bode fedezeti alap veterán szerint a Bitcoin közel 50%-os esése a közelmúltbeli csúcsokról nem rendszerszintű válságot jelez, hanem összhangban van a kriptovaluta történelmével, amely során hasonló mértékű, de történelmileg mindig átmeneti zuhanások voltak jellemzőek...

MA 08:24

Az Anthropic mesterséges intelligenciája 500 kritikus biztonsági hibát fedezett fel

Az Anthropic legújabb MI-modellje több mint 500 korábban ismeretlen, súlyos biztonsági hibát tárt fel nyílt forráskódú könyvtárakban, szinte külön utasítás nélkül...

MA 08:01

Mi köze a 6-7-nek, a démonoknak és az Agymenőknek a prímszámokhoz?

Ebből következően érdemes megérteni, hogy a prímszámok a matematika atomjaihoz hasonlóak: olyan oszthatatlan építőelemek, amelyekből minden más szám összeáll...

MA 07:57

A keserű íz azonnal felpörgeti az agyad

🧠 Új kutatás szerint a flavanolokban gazdag ételek keserű, összehúzó íze közvetlenül aktiválhatja az agyat, és pusztán az ízérzékelés által válthat ki a testmozgáshoz hasonló hatásokat...

MA 07:48

Az Anthropic mesterséges intelligenciája 500 kritikus biztonsági rést fedezett fel

Az Anthropic legújabb MI-modellje, a Claude Opus 4.6 több mint 500 korábban ismeretlen, súlyos biztonsági hibát fedezett fel nyílt forráskódú könyvtárakban, minimális utasítással...

MA 07:41

A Cardano alapítója 1200 milliárd forintos veszteséget szenvedett el

😔 Charles Hoskinson, a Cardano alapítója tokiói élő közvetítésében felfedte, hogy több mint 3 milliárd dollár (körülbelül 1200 milliárd forint) nem realizált veszteséget halmozott fel a jelenlegi kriptopiaci zuhanás során...

MA 07:35

Az 5 legjobb elektromos fogkefe gyerekeknek – szakértői tippek a választáshoz

Február a Gyermek Fogászati Egészség Hónapja az Egyesült Államokban, így ez a tökéletes alkalom arra, hogy beszéljünk a kicsik fogairól és ínyszövetéről...

MA 07:26

Állami hackerek 155 ország kormányzati rendszereibe férkőztek be

🌐 Egy államilag támogatott kibercsapat több tucat ország kormányzati és kritikus infrastruktúra-hálózatát törte fel egy Shadow Campaigns névre keresztelt globális kémkedési műveletben...

APP
MA 07:11

APPok, Amik Ingyenesek MA, 2/8

Fizetős iOS appok és játékok, amik ingyenesek a mai napon...

MA 07:01

A tapasztalat minden esetben felülmúlja az ifjú lelkesedést

Egyre több kutatás bizonyítja, hogy az idősebb munkavállalók általában produktívabbak fiatalabb kollégáiknál...

MA 06:49

Az Nvidia-részvények történelmi hozamot hozhatnak a mostani árakon

Kevesen mondanák azt, hogy az Nvidia részvénye olcsó, pedig valójában ez a helyzet...

MA 06:41

A pókselyem titka: így lesz erősebb az acélnál

🕷 A tudósok feltárták azt a molekuláris titkot, amely a pókselymet acélnál erősebbé teszi, és új utakat nyit a jövő anyagai, valamint az agybetegségek megértése felé...

MA 06:32

A nagy techcégek atomenergia-üzletei mindent megváltoztathatnak

A Fortune szerint az atomenergia újjászületése folyamatban van, ezúttal a mesterséges intelligencia energiaigényének kielégítésére...

MA 06:25

Ingatlanpiaci elemzés: hol kerülnek egyre jobb helyzetbe a vevők?

🏘️ Az ingatlanárak alakulásának megértéséhez kulcsfontosságú az aktív kínálat és a készlet hónapjainak figyelemmel kísérése...

MA 06:16

A bitcoin-befektetők visszatértek: széles körű felvásárlási hullám indult

📈 A Glassnode adatai szerint február elején, amikor a bitcoin 29 millió forint körül forgott, a nagy befektetők elkezdtek pozíciót építeni...

MA 06:05

Történelmi események a mai napon (Február 8.)

Mi történt ezen a napon a történelemben? Ezen a napon kivégzik Mary, Queen of Scots-ot (Skóciai Mária királynőt), Japán megszállja Szingapúrt, és elindul a NASDAQ tőzsdeindex...

MA 06:02

A mesterséges intelligencia több mellrákot szúr ki, mint a radiológusok

🔬 Egy úttörő klinikai vizsgálat kimutatta, hogy az MI-támogatott mammográfia több rákos megbetegedést képes felismerni, és korábban, mint a hagyományos vizsgálat...

szombat 20:37

A COVID és a H1N1 két hét alatt söpört végig Amerikán

🦠 Egy új kutatás megdöbbentő sebességet tárt fel, amivel a H1N1 és a COVID-19 elterjedt az amerikai városokban...

szombat 20:01

A NASA február 11-én indítja útnak a Crew-12 legénységét a Nemzetközi Űrállomásra

🚀 A Crew-12 űrhajósai február 11-én indulnak a Nemzetközi Űrállomásra, csatlakozva a fedélzeten maradt három űrutazóhoz, miután az előző missziót egészségügyi okokból lerövidítették...

szombat 19:55

A BridgePay elleni zsarolóvírus-támadás országos fizetési káoszt okozott

Az egyik legnagyobb amerikai fizetésiátjáró-szolgáltató, a BridgePay ransomware-támadás áldozata lett, ami kulcsfontosságú rendszereit tette elérhetetlenné, és országos kiesést okozott...

szombat 19:37

A Bitcoin 70 000 dollár alá zuhant a piaci pánik közepette

💸 A Bitcoin 60 000 dollár közeléből körülbelül 69 000 dollárra tért magához, miután gyakorlatilag visszaadta azokat a nyereségeket, amelyeket Donald Trump 2024...

szombat 19:19

Az új AirTag, a Nex Playground és az MSI Prestige: a hét legizgalmasabb tesztjei

🏷️ Ebből következően érdemes megérteni, hogy február kellős közepén jócskán volt dolga az Engadget tesztelőinek...

szombat 19:02

Harcosi felszereléssel temettek el angolszász gyerekeket Nagy-Britanniában

Régészek angolszász gyerekeket fedeztek fel, akiket lándzsával, pajzzsal és csatokkal temettek el – olyan felszereléssel, amely általában harcosok sírjaiban található...