2025. 11. 03., 13:19

Az MI-ügynökök védelme még mindig gyenge

Az MI-ügynökök védelme még mindig gyenge
Az utóbbi időben két új, figyelemre méltó tanulmány is napvilágot látott a nagy nyelvi modellek (LLM) biztonságával és a prompt injection támadásokkal kapcsolatban. Ezekből egyértelműen kiderül, hogy az MI-alapú rendszerek védelme még korántsem megoldott – sőt, a legtöbb mai módszer könnyedén kijátszható.

Ügynökök szabálya: csak kettőt a háromból!

A Meta új tanulmánya, az Agents Rule of Two (Az ügynökök kettőszabálya) nagyon tömören foglalja össze, hogyan lehetne csökkenteni a prompt injection támadások legsúlyosabb következményeit. Eszerint egy MI-ügynök egy adott munkamenet során legfeljebb két kritikus tulajdonsággal rendelkezhet a háromból: feldolgozhat megbízhatatlan bemeneteket, hozzáférhet érzékeny adatokhoz vagy rendszerekhez, illetve képes lehet állapotváltozást előidézni vagy külső kommunikációt folytatni. Lényeges hangsúlyozni, hogy ha egy ügynöknek mindhárom képességre szüksége van, tilos teljes autonómiával működnie, és legalább emberi felügyeletet igényel.

Ez a megközelítés üdítően egyszerű: a korábbi, lebilincselő hármas például főként csak az adatlopás veszélyére vonatkozott, míg az új szabály a rendszerállapot-módosítás kockázatát is figyelembe veszi. Ettől függetlenül a modellnek van némi korlátja is: a szerzők szerint a megbízhatatlan bemenetek és az állapotváltoztatás kombinációja sem biztonságos, még ha nincs is hozzáférés érzékeny adatokhoz – de e kitétel bevezetése már rontaná a hasznos egyszerűséget.

A támadó mindig egy lépéssel előrébb jár – és átjut a védelmen

Egy másik, még nagyobb visszhangot kiváltó tanulmány 14 neves szerzőtől – köztük az OpenAI-tól, a Google DeepMindtól és az Anthropictól – 12 publikus védelmet, köztük prompt injection és jailbreaking elleni módszert vetett vizsgálat alá. A kutatók úgynevezett adaptív támadásokat alkalmaztak: a támadó algoritmusok vagy emberek többször próbálkozhattak, miközben figyelték a rendszer reakcióit, és menet közben fejlesztették stratégiájukat.

Az eredmény: a vizsgált védelmek túlnyomó többsége elbukott, sokszor több mint 90%-os sikeraránnyal törték át őket. Lényeges, hogy humán tesztelés során – egy 7,4 millió forintos verseny keretében, 500 résztvevővel – minden védelem megadta magát. Ez rávilágít arra, mennyire illuzórikusak a statikus, egyszeri trükkökkel tesztelt védelmek: az adaptív, folyamatosan fejlődő támadások könnyedén túljárnak rajtuk.

Az ellen-védekezés csapdája: minden támadás egyéni válaszokat követel

A támadók több fő módszert is hatékonyan alkalmaztak: a gradiensalapú optimalizációt, a megerősítéses tanulást, de legfőképp a keresésalapú megközelítések bizonyultak eredményesnek. Ez utóbbinál a támadók MI-t használtak arra, hogy támadószövegeket generáljanak, majd MI-alapú minősítési rendszeren szűrték át azokat. Ettől függetlenül még a fejlettebb algoritmusoknál is a humán tesztelők jeleskedtek a leghatékonyabb támadásokban.

A kutatók óvatos optimizmussal fogalmaznak: szerintük az adaptív tesztelés bonyolultabb, de elengedhetetlen, és bíznak benne, hogy az ilyen tesztek emelik majd a védelmek színvonalát. Összefoglalásként megjegyezhető, hogy az új szabályok és felismerések fényében továbbra sincs megbízható, univerzális védelem a prompt injection támadások ellen – az egyetlen járható út az, ha a kettőszabály szerint kialakított rendszerekben eleve korlátozzuk az MI-ügynökök lehetőségeit, és nem hagyjuk, hogy autonóm módon mindhárom kritikus képesség összetalálkozzon egyetlen munkamenetben.

2025, adminboss, simonwillison.net alapján

  • Te mennyire bíznál egy mesterséges intelligencia alapú rendszerben, ha tudnád, hogy a védelme könnyen megkerülhető?
  • Ha te fejlesztenél egy MI-ügynököt, hogyan korlátoznád a képességeit?


Legfrissebb posztok

szerda 21:56

Az Apple II most MS-DOS-t futtat – kapaszkodj!

💻 Képzeld el az Apple II-t, amelyben valaki nem törődött bele az idő vasfogának munkájába, és összebarkácsolta a lehetetlent: új életet lehelt az AD8088 koprocesszor-kártyába, így az öreg gép MS-DOS 2...

szerda 21:45

A rejtőzködő fehér törpe leplezte le a csillag titkát

Nincs még egy olyan szabad szemmel is látható csillag, mint a Cassiopeia csillagképben ragyogó Gamma Cassiopeiae, amely csaknem ötven éve zavarba ejti a kutatókat...

szerda 21:34

A Pinterest forradalma: végre az inspiráció a főszerepben

A Pinterest vezére, Bill Ready most nekiment annak a mélyen gyökerező hisztériának, amelyet a legtöbb közösségi oldal szinte az anyatejjel szívja magába...

szerda 21:26

Az Apple bekeményít: szigorúbb korhatárellenőrzés, új szabályok érkeznek

Különösen igaz, ha iPhone-t használsz az Egyesült Királyságban: a legújabb iOS-frissítéssel milliókat kérnek arra, hogy igazolják, betöltötték a 18...

szerda 21:01

A Meta újabb leépítései keményen sújtják a dolgozókat

A Meta ismét több száz dolgozót bocsátott el, ezúttal főként a Reality Labs részlegből, amely a cég VR- és metaverzum-projektjeit irányítja...

szerda 20:57

A vörös bolygó rubinokat és zafírokat rejthet – az élet nyomait?

A Mars felszíne apró, drágakőhöz hasonló kristályokat rejt, többek között rubinokat és talán még zafírokat is...

szerda 20:47

A metaverzum sírba szállt – bukás vagy nagy visszatérés?

Az elmúlt évek egyik legnagyobb technológiai ígérete, a metaverzum fejlesztése és a körülötte kialakult felhajtás mára szinte teljesen elhalt...

szerda 20:35

Az űr következő nagy dobása: NASA-holdbázis és nukleáris űrhajó érkeznek

🚀 Érdemes megvizsgálni, hogy a NASA soha nem látott ambíciókkal és elképesztő tempóban készül átalakítani a következő évtized űrkutatását...

szerda 20:23

Az antianyag kamionra szállt – az év tudományos kalandja

🚗 A CERN kutatói először vitték ki az antianyagot a laboratóriumból, és ezzel egy kamionnyi, pontosan 92 antiproton szállítására alkalmas csúcstechnológiás csapdát gördítettek végig a kutatóközpont területén...

szerda 20:13

Az alvilág új kedvence: az MI-fiók

Az utóbbi időben a mesterséges intelligencia (MI) eszközök gyorsan beépültek a mindennapokba, legyen szó tartalomgyártásról, szoftverfejlesztésről vagy éppen üzleti folyamatokról...

szerda 20:01

Az OpenAI Sora-fiaskója miatt bukott a Disney milliárdos üzlete

A Disney váratlanul visszavonult az OpenAI-jal kötött tervezett, 1 milliárd dolláros (kb...

szerda 19:56

Az elektromos motorokat tényleg ijesztően könnyű feltörni?

⚠ Az elektromos motorokat gyártó Zero Motorcycles azt hirdette, hogy járműveik feltörhetetlenek – végül kiderült, hogy óriásit tévedtek...

szerda 19:45

Az Android rakétára kapcsolt: ő lett a mobilnet királya

Elképesztő tempót diktál mostanában az Android, ha mobilos böngészésről van szó...

szerda 19:34

Az új Citrix-sebezhetőségek: frissítés nélkül célponttá válsz

Két súlyos sérülékenységre derült fény a NetScaler ADC és NetScaler Gateway eszközökben...

szerda 19:23

Az első nagy per a közösségi média ellen: bajban a techóriások

A Los Angeles-i esküdtszék történelmi döntést hozott: a Meta és a YouTube jelentősen felelősek egy fiatalkorú közösségi média-függőségéért...

szerda 18:01

Az MI pénzgyára dübörög: érkeznek az Arm titkos, izgalmas processzorai

💸 Az Arm vezérigazgatója, René Haas új irányba fordítja az eddig főleg IP-licenceléstől függő brit chipfejlesztő vállalatot...

szerda 17:56

Az Android új Terminálja végre halad a korral

💻 Az Android legfrissebb Canary-verziójában teljesen megújul a Linux-terminál alkalmazás, amely eddig is a Pixel-telefonok egyik leghasznosabb, ám keveset emlegetett extrája volt...

szerda 17:45

A Ring 4K-s, napelemes kapucsengőkkel hódít

🚕 A Ring új magasságokba repíti akkumulátoros videókapucsengőit, és nem kispályásan: a legújabb Battery Doorbell Pro (2...

szerda 17:35

Az újabb brutális leépítési hullám söpör végig a Metánál

Érdekes, hogy néhány év alatt a Meta számára gyakorlatilag csak egy fő irány maradt: az MI...

szerda 17:24

Az OpenAI elkaszálja a Sora MI‑videóalkalmazást

Az OpenAI bejelentette, hogy megszünteti a Sora nevű MI‑alapú videóalkalmazását és a hozzá tartozó fejlesztői API‑t...

szerda 17:02

A mámorító nektár titka: méhek és kolibrik egész nap isznak

🍹 A virágporozók, mint a méhek és a kolibrik, nemcsak nektárral táplálkoznak, de tudtukon kívül folyamatosan kis mennyiségű alkoholt is fogyasztanak a természetben...

szerda 16:57

Az amerikai dolgozók bíznak magukban, de elbuknak az adathalász-teszten

Sokan magabiztosnak érzik magukat, ha adathalász e-mailekről van szó, mégis meglepő eredményekre jutott egy friss felmérés...

szerda 16:46

Az eltűnt tetoválás: a nyakára tetovált kereszt végzetes nyomot hagyott

Egy húszéves férfi különleges esete rámutat, hogy a tetoválásokhoz ma is társulhat ritka szövődmény...

szerda 16:34

Az új Firefox 149 érkezik: osztott ablak, beépített VPN, még több kényelem

🛠 Megérkezett a Firefox 149-es verziója, amely látványos újdonságokat tartogat. Mostantól két weboldal nézhető egymás mellett a böngészőben, így a párhuzamos munkavégzés sosem volt még ilyen egyszerű...

szerda 16:24

Az eltűntnek hitt nyúl teteme most váratlan reményt hozott

Évtizedek óta először sikerült azonosítani a Hajnan szigetén honos, kritikusan veszélyeztetett hajnani nyúl maradványait egy szokatlan helyen – de sajnos már csak egy elgázolt tetem formájában...

szerda 14:01

Az Archer routerekben óriási biztonsági rések tátonganak

Az Archer NX sorozatú routereken komoly biztonsági rést találtak: a TP-Link sürgős frissítést javasol felhasználóinak, mert a hibának köszönhetően támadók mindenféle jogosultság nélkül tölthetnek fel új firmware-t, illetve teljesen átvehetik az eszköz irányítását...

szerda 13:56

A Harvey jogi MI-startupja már 4000 milliárd forintot ér

🧐 Még mindig akadnak ígéretes MI-alapú cégek, amelyeknek nem kell aggódniuk az OpenAI vagy az Anthropic óriási térnyerése miatt...

szerda 13:25

Az MI átveszi a Mac felett az irányítást: itt a Claude

🤖 Anthropic újabb áttörést jelentett be az MI-alapú ügynökök frontján: a Claude nevű chatbot mostantól képes egy Mac számítógép teljes irányítására...

szerda 11:57

A sarkvidéki hideg drámai betörése Floridába

❄ Egy szokatlanul intenzív hidegfront felkavarta a tengerfenék üledékét Florida partjainál, amelynek eredményeként meseszép, világoskék üledékfelhő fodrozódott végig a Mexikói-öböl délnyugati térségében...