2025. 11. 03., 13:19

Az MI-ügynökök védelme még mindig gyenge

Az MI-ügynökök védelme még mindig gyenge
Az utóbbi időben két új, figyelemre méltó tanulmány is napvilágot látott a nagy nyelvi modellek (LLM) biztonságával és a prompt injection támadásokkal kapcsolatban. Ezekből egyértelműen kiderül, hogy az MI-alapú rendszerek védelme még korántsem megoldott – sőt, a legtöbb mai módszer könnyedén kijátszható.

Ügynökök szabálya: csak kettőt a háromból!

A Meta új tanulmánya, az Agents Rule of Two (Az ügynökök kettőszabálya) nagyon tömören foglalja össze, hogyan lehetne csökkenteni a prompt injection támadások legsúlyosabb következményeit. Eszerint egy MI-ügynök egy adott munkamenet során legfeljebb két kritikus tulajdonsággal rendelkezhet a háromból: feldolgozhat megbízhatatlan bemeneteket, hozzáférhet érzékeny adatokhoz vagy rendszerekhez, illetve képes lehet állapotváltozást előidézni vagy külső kommunikációt folytatni. Lényeges hangsúlyozni, hogy ha egy ügynöknek mindhárom képességre szüksége van, tilos teljes autonómiával működnie, és legalább emberi felügyeletet igényel.

Ez a megközelítés üdítően egyszerű: a korábbi, lebilincselő hármas például főként csak az adatlopás veszélyére vonatkozott, míg az új szabály a rendszerállapot-módosítás kockázatát is figyelembe veszi. Ettől függetlenül a modellnek van némi korlátja is: a szerzők szerint a megbízhatatlan bemenetek és az állapotváltoztatás kombinációja sem biztonságos, még ha nincs is hozzáférés érzékeny adatokhoz – de e kitétel bevezetése már rontaná a hasznos egyszerűséget.

A támadó mindig egy lépéssel előrébb jár – és átjut a védelmen

Egy másik, még nagyobb visszhangot kiváltó tanulmány 14 neves szerzőtől – köztük az OpenAI-tól, a Google DeepMindtól és az Anthropictól – 12 publikus védelmet, köztük prompt injection és jailbreaking elleni módszert vetett vizsgálat alá. A kutatók úgynevezett adaptív támadásokat alkalmaztak: a támadó algoritmusok vagy emberek többször próbálkozhattak, miközben figyelték a rendszer reakcióit, és menet közben fejlesztették stratégiájukat.

Az eredmény: a vizsgált védelmek túlnyomó többsége elbukott, sokszor több mint 90%-os sikeraránnyal törték át őket. Lényeges, hogy humán tesztelés során – egy 7,4 millió forintos verseny keretében, 500 résztvevővel – minden védelem megadta magát. Ez rávilágít arra, mennyire illuzórikusak a statikus, egyszeri trükkökkel tesztelt védelmek: az adaptív, folyamatosan fejlődő támadások könnyedén túljárnak rajtuk.

Az ellen-védekezés csapdája: minden támadás egyéni válaszokat követel

A támadók több fő módszert is hatékonyan alkalmaztak: a gradiensalapú optimalizációt, a megerősítéses tanulást, de legfőképp a keresésalapú megközelítések bizonyultak eredményesnek. Ez utóbbinál a támadók MI-t használtak arra, hogy támadószövegeket generáljanak, majd MI-alapú minősítési rendszeren szűrték át azokat. Ettől függetlenül még a fejlettebb algoritmusoknál is a humán tesztelők jeleskedtek a leghatékonyabb támadásokban.

A kutatók óvatos optimizmussal fogalmaznak: szerintük az adaptív tesztelés bonyolultabb, de elengedhetetlen, és bíznak benne, hogy az ilyen tesztek emelik majd a védelmek színvonalát. Összefoglalásként megjegyezhető, hogy az új szabályok és felismerések fényében továbbra sincs megbízható, univerzális védelem a prompt injection támadások ellen – az egyetlen járható út az, ha a kettőszabály szerint kialakított rendszerekben eleve korlátozzuk az MI-ügynökök lehetőségeit, és nem hagyjuk, hogy autonóm módon mindhárom kritikus képesség összetalálkozzon egyetlen munkamenetben.

2025, adminboss, simonwillison.net alapján

  • Te mennyire bíznál egy mesterséges intelligencia alapú rendszerben, ha tudnád, hogy a védelme könnyen megkerülhető?
  • Ha te fejlesztenél egy MI-ügynököt, hogyan korlátoznád a képességeit?


Legfrissebb posztok

MA 08:37

A NASA négy új robotküldetéssel tör utat a holdbázisnak

🚀 Megemlíthető, hogy az amerikai űrügynökség egyre nagyobb lendülettel dolgozik azon, hogy hosszú távú emberi jelenlétet teremtsen a Holdon...

MA 08:25

Az MI-lökéshullám felpörgeti a Dell bevételeit, de messze nem aranybánya

Michael Dell idén egészen elképesztő sikereket ér el: cége meghatározó beszállító lett az adatközpont-fejlesztésekben, többek között a CoreWeave és az xAI számára szállít Nvidia-alapú szervereket, rackeket, hűtőrendszereket, valamint támogatást, miközben együttműködik a Microsofttal, a Google-lel és az OpenAI-jal is nagy teljesítményű MI-rendszerek építésében...

MA 08:13

A 6 milliós Pokémon-kártyalopásért több mint tíz év börtönt kapott

💰 Egy észak-karolinai férfi több mint tíz év börtönt kapott, miután beismerte, hogy januárban Pokémon-kártyákat és pénzt lopott egy helyi videójátékbolt alkalmazottjától Wilmingtonban...

MA 08:01

A Szamóca-hold ma este: az év legalacsonyabb, apró teliholdja

🍇 Idén június 29-én érdemes az eget figyelni: ekkor látható a júniusi telihold, más néven az Eperhold (Strawberry Moon), ami az év legalacsonyabban járó és egyik legkisebb teliholdja lesz...

MA 07:48

Az Android 17 új zárképernyő-trükkje bárkit elbuktat betöréskor

Az Android 17 jelentős szigorításokat vezet be a zárolóképernyőn, amellyel gyakorlatilag ellehetetleníti a PIN vagy jelszó feltörését...

MA 07:36

A kínai Lineshine szuperszámítógép világrekorder: közel 2 kvadrillió művelet/mp

A kínai LineShine szuperszámítógép most először szerezte meg a világelsőséget a számítási sebesség terén...

MA 07:25

Az amerikai agrárminisztérium 180 millió legyet enged szabadon – íme, miért

A mexikói Metapában egy vadonatúj, 2043 négyzetméteres üzemben indult el az Egyesült Államok mezőgazdasági minisztériumának (USDA) legújabb programja: steril legyek tömeges előállítása...

MA 07:13

A Microsoft felpörgeti kvantumbiztos ütemtervét, nőnek a kockázatok

⚡ A Microsoft az eddigieknél sokkal gyorsabban készül átállni a kvantumbiztos védelemre, mert a kvantumszámítógépek fejlődése minden korábbinál nagyobb fenyegetést jelent a jelenlegi titkosítási szabványokra...

MA 06:49

Az MI‑böngészők új réme: a BioShocking-adatlopás

Felmerül a kérdés, hogy mennyire bízhatunk meg a mesterséges intelligenciával hajtott böngészőkben, ha egy új támadás képes kijátszani a biztonsági korlátokat...

MA 06:37

A Samsung szó szerint átformálja a hajlítható telefonjait?

Ahogy beköszönt a nyár, egyre hangosabbak a pletykák a Samsung legújabb összehajtható telefonjairól...

MA 06:06

Történelmi események a mai napon (Július 1.)

Ma háborúk fordulópontjai, birodalmak átrendeződései és új korszakokat nyitó tudományos, társadalmi mérföldkövek találkoznak...

MA 06:01

Az okosabb botvédelem mostantól megóvja a Teams-megbeszéléseket

🔒 A Microsoft fejlesztéseinek köszönhetően mostantól jóval biztonságosabbak lesznek a Teams-megbeszélések, hiszen egy új szabályozás lehetővé teszi, hogy a felhasználók blokkolják az engedély nélküli, harmadik féltől származó botok csatlakozását...

kedd 18:32

A Cleveland-i Fed elnöke szerint MI fűti az inflációt – jöhet újabb kamatemelés

A mesterséges intelligencia infrastruktúrája iránti fékezhetetlen igény egyre nagyobb mértékben fűti az inflációt – figyelmeztetett Beth Hammack, a clevelandi Szövetségi Tartalékbank elnöke...

kedd 18:01

A Samsung Messages júliusban leáll: ezt az 5 dolgot tedd meg azonnal!

⚠ A Samsung Messages alkalmazás hamarosan végleg eltűnik az amerikai felhasználók mobiljáról, így akinek fontosak a régi üzenetei, vagy továbbra is csevegni szeretne, érdemes minél előbb lépnie...

kedd 17:02

Az új CRISPR az epigenomot célozza, átírja a gének kapcsolóit

🔨 Felmerül a kérdés, hogy mi lenne, ha a betegségeket nem csupán a DNS szerkesztésével, hanem a gének működésének speciális beállításával lehetne kezelni?..

kedd 16:31

A Tata Electronicsnál múlt héten kiszivárogtak érzékeny iPhone-beszállítói adatok

Az elmúlt héten hatalmas adatlopás történt az indiai Tata Electronicsnál, ahol közel 630 GB-nyi bizalmas információ került illetéktelen kezekbe...

kedd 16:01

A YouTube-on már nézhető a Peacock – épp a vb-re!

A Peacock Premium Plus már elérhető a YouTube Primetime Channels szolgáltatáson keresztül, így mostantól közvetlenül a YouTube alkalmazásban is előfizethetsz rá, és nézheted az összes tartalmat – legyen szó mobilról, tabletről vagy okostévéről...

kedd 15:01

A Blackfield 2 millió dollárt követel a Nidec-től

💸 A világ egyik legnagyobb motor- és elektronikai alkatrészgyártójaként ismert, több mint 100 ezer embert foglalkoztató japán Nidec Corporation most hatalmas nyomás alatt áll: a Blackfield zsarolóvírus-banda 2 millió dollárt, vagyis körülbelül 726 millió forintot követel tőle...

kedd 14:32

A Sentryn át eltérítették a Claude Code-ot; Datadog, PagerDuty, Jira is veszélyben

A Claude Code MI-ügynök elleni támadás meglepő módon mindent kikerült, amit ma védelemnek nevezünk...

kedd 12:01

A kínai szuperszámítógép a világ leggyorsabbja, lehagyta Amerikát

A kínai LineShine nevű szuperszámítógép lett a világ leggyorsabbja, első ízben 2017 óta, hogy ismét kínai gép vezeti a mezőnyt...

kedd 11:31

A tenger alatti alagutaké a jövő Shetlanden: összekötnék a szigeteket

🚦 Érdemes megvizsgálni, hogy a Shetland-szigetek vezetése radikális változtatásra készül a közlekedésben: egy 1,5 milliárd angol font (650 milliárd forint) értékű terv szerint az elöregedő kompokat víz alatti alagutak válthatják fel a következő nyolc éven belül...

kedd 10:50

Az MI-láz: száguldó milliárdok, közeleg a következő válság?

A 19. század csatornaépítési és vasúti láza, a dotkom-lufi 2000-ből – mind gazdaságtörténeti példák arra, hogy valódi technológiai áttörések túlfűtött beruházási hullámokat indíthatnak el, amelyek végül recesszióval végződhetnek...

kedd 10:24

Az IBM rekordja: közel 100 milliárd tranzisztor egyetlen chipen

Az IBM újabb mérföldkőhöz érkezett a chiptechnológia világában: bemutatta a világ első, 1 nanométernél kisebb csíkszélességű technológiáját, mellyel egy körömnyi lapkán közel 100 milliárd tranzisztor kap helyet...

kedd 10:01

A milliónyi robbanó csillag hamarosan felfedheti a sötét energia titkát

💫 Az Univerzum tágulásának részletesebb vizsgálata és a titokzatos sötét energia megértése közelebb kerülhet, hála egy barcelonai kutatócsoport forradalmi megközelítésének...

kedd 09:49

Az emberiség túlélheti – a Föld megúszhatja a Nap halálát

Ez a jelenség jól illusztrálható azzal, hogy a Nap közel ötmilliárd év múlva lenyűgöző változáson megy keresztül: kifogy a hidrogén üzemanyagából, vörös óriássá duzzad, majd még nagyobb méretet öltve aszimptotikus óriáság állapotba lép, végül fehér törpévé zsugorodik...

kedd 09:37

A fiatalokat sújtó rákhullám mögött a gyorsabb biológiai öregedés áll?

Az elmúlt években egyre többen néznek szembe azzal, hogy már 50 éves koruk előtt súlyos betegségekkel, például mell-, vastagbél-, vese- vagy méhrákkal diagnosztizálják őket...

kedd 09:24

A Gemini már a személyes fotóidból is képeket varázsol

📷 A Google egyre többet tud rólunk, mostantól pedig a Gemini alkalmazáson keresztül már a személyes fotóink felhasználásával is egyedi képeket készít...

kedd 09:13

A Nissan elismerte: dolgozói adatai Oracle zero-day támadásban szivárogtak

Külön említést érdemel, hogy a Nissan jelenlegi és volt alkalmazottainak személyes adatai kerültek veszélybe egy kifinomult kibertámadássorozat során...

APP
kedd 09:11

APPok, Amik Ingyenesek MA, 6/30

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Lively Letters – Phonics (iPhone/iPad)Ez az alkalmazás villámgyorsan az App Store fizetős oktatási programjai élére tört...