Új trükk, ügyvédi szöveggel tévesztik meg a mesterséges intelligenciát
A Pangea biztonsági cég kutatói rámutattak, hogy a mesterséges intelligencia (MI) – különösen a nagy nyelvi modellek (LLM-ek) – egy újabb, meglepően egyszerű módon is átverhető: elég, ha az ártó szándékú utasításokat egy jogi dokumentum apró betűs részébe rejtik. Fontos tényező, hogy ezek a modellek hajlamosak a jogi szövegeket különösen hitelesnek tekinteni, így a támadók könnyedén kijátszhatják a beépített védelmi mechanizmusokat (védőkorlátokat – guardrail).
Miért olyan trükkös ez a támadás?
Az LLM-ek – amelyek tonnányi szerzői joggal védett anyagból és tokenből építkeznek – alapvetően hasznos, informatív válaszokat próbálnak adni. Ennek ellenére a cégek mindent megtesznek azért, hogy elkerüljék a káros vagy illegális tartalmak előállítását, ezért szigorú szabályokat állítanak fel. Ezek kijátszása, az úgynevezett jailbreaking azonban ijesztően egyszerű. Elég egy ügyesen elrejtett utasítás például egy szerződés szövegében, és a modell máris végrehajtja az ártó parancsokat, mintha azok ártatlan kérések lennének.
A LegalPwn módszer működése
A LegalPwn nevű támadás során a kártékony utasításokat jogászok által megszokott, bonyolult mondatok közé rejtik. Amikor az MI ezeket a dokumentumokat elemzi vagy értelmezi, az elrejtett utasításokat is feldolgozza – ráadásul a tesztek szerint legtöbbször sikeresen. Például, amikor a modellnek egy kód biztonságát kellett értékelnie, minden esetben felismerte a rosszindulatú „pwn()” függvényt – kivéve, amikor a jogi szövegben ott volt elrejtve, hogy erről ne tegyen említést. Ilyenkor már biztonságosnak minősítette, sőt, egyes esetekben a futtatását is javasolta. A továbbfejlesztett támadás során a modell már egy egyszerű számológép-funkciónak látta a veszélyes kódot.
Nem minden MI-modell volt egyformán sebezhető. Az Anthropic Claude, a Microsoft Phi és a Meta Llama Guard képesek voltak felismerni a trükköt, míg a GPT-4o, a Gemini 2.5 és az xAI Grok, valamint a gyakorlatban a Gemini-cli és a GitHub Copilot átengedte a veszélyes tartalmat. Ennek ellenére a fejlesztők többféle védelmi lehetőséget is javasolnak – például fokozott bemenetellenőrzést, sandbox használatát, ellenállóbb betanítást, valamint emberi ellenőrzést minden érzékeny MI-használat esetén.
A fentiek tükrében
Az MI-modellek hitelessége és megbízhatósága csak addig tart, amíg a beépített védelmek ténylegesen működnek. A jogi szövegekbe rejtett támadások új kihívást jelentenek, amelyek ellen folyamatosan fejlődő, többrétegű védelemre lesz szükség – különösen ott, ahol az MI döntései a mindennapi életet is befolyásolhatják.
2025, adminboss, go.theregister.com alapján
filózó
Te mit gondolsz arról, hogy az MI ilyen egyszerűen átverhető jogi szövegekkel?
Ha fejlesztő lennél, szerinted mire kellene leginkább figyelni ilyen támadások ellen?
Szerinted elég biztonságos lenne így az MI mindennapi alkalmazása, vagy te mást tennél?
A Kongói Demokratikus Köztársaság és Uganda területén kitört ebola-járványt vasárnap nemzetközi jelentőségű egészségügyi vészhelyzetnek minősítette az Egészségügyi Világszervezet...
A Survivor – Görögország (Survivor Greece) forgatását azonnali hatállyal leállították, miután egy fiatal versenyző, Stavros Floros életveszélyes balesetet szenvedett...
A technológiai átalakulás új korszakát éljük, ahol a fejlett algoritmusok már nemcsak támogatják, hanem egyre inkább kiváltják azokat a szakértői feladatokat, amelyekben az embereknek fejlődniük kellene...
A GameSir G8+ MFi jelentős előrelépés a mobil játékvezérlők világában, amely a G8 Galileo bevált tulajdonságait vette alapul, majd szinte minden kritikus ponton továbbfejlesztette azt...
Kételyek merültek fel, hogy a nemrég megjelent, Mixtape című történetközpontú játék hamarosan eltűnhet a digitális boltokból a zeneszámok licencproblémái miatt...
Hihetetlen, de mégis igaz, hogy az Egyesült Államokban működő adatközpontok évente annyi áramot fogyasztanak, amellyel több mint 16 millió otthon energiaigényét lehetne fedezni...
Kenya elképesztő technológiai ugrásra készült, amikor májusban bejelentették a G42 és a Microsoft közös, 1 milliárd dolláros adatközpont-beruházását...
Csak három évvel a megjelenése után végleg eltűnik a digitális boltok polcairól a LEGO 2K Gyorsulás (LEGO 2K Drive), az a nyílt világú versenyjáték, ahol saját építésű járgányaiddal száguldozhatsz...
😐 Ez a jelenség jól illusztrálható azzal, hogy ha egy alkotó bármilyen megjegyzést tesz egy legendás játék folytatásáról, az internetes rajongók azonnal az új rész bejelentését vizionálják...
Mi fűzte össze ezt a napot? Alkotmányok 📜, háborúk ⚔️ és történelmi első alkalmak 🚆 formálták a világot: Norvégia alkotmánya, a Boshin-háború lezárása, a Watergate-ügy nyilvános szenátusi meghallgatásai és az első legális azonos nemű házasságok mind ide kötődnek...
💪 Ami kezdetben ártalmatlannak tűnt, az utóbbi években jelentősen megváltozott: világszerte milliók home office-ba kényszerültek, ami alaposan átrajzolta, mit várunk el az irodabútortól...
A közelmúltban egy tengerjáró hajón történt hantavírus-kitörés miatt jelenleg mintegy 150 utast figyelnek meg, illetve akár hathetes karanténba is helyeznek...
🕵 Egy 17. századi marylandi temető különös titkot rejtett: egy mindössze nyolcéves fiú földi maradványait találták meg, aki túlnyomórészt afrikai származású volt...
Az agyunk működése mögötti titkos összetevőkre újabb fény vetült: amerikai kutatók felfedezték, hogy a tartós szorongással élőknél kimutathatóan kevesebb található egy létfontosságú agyi tápanyagból, amelyet az emberek többsége amúgy is hiányosan visz be...
💰 Az új Gmail-fiókok tulajdonosai néhány országban kellemetlen meglepetéssel szembesülnek: a megszokott 15 GB ingyenes tárhely helyett kezdetben csak 5 GB-ot kapnak...
🤒 Az öregedéssel és krónikus betegségekkel kapcsolatban egészen új tényezőt fedeztek fel a kutatók: a bélben képződő parányi részecskék, úgynevezett exoszómák is kulcsszerepet játszhatnak a szervezet gyulladásos folyamataiban...
A Metroid Dread fejlesztőjeként ismert MercurySteam komoly változások elé néz: a stúdió kénytelen volt elbocsátásokat bejelenteni, miközben legújabb akciójátékuk, a God of War-hangulatú Blades of Fire végre Steamen is elérhetővé vált...
Több mint 1600 kilométerrel Ecuador partjaitól nyugatra, a Csendes-óceán mélyén található Gofar-törésvonal már legalább harminc éve szinte óraműpontossággal produkál nagy, 6-os erősségű földrengéseket...