Új trükk, ügyvédi szöveggel tévesztik meg a mesterséges intelligenciát

Új trükk, ügyvédi szöveggel tévesztik meg a mesterséges intelligenciát
A Pangea biztonsági cég kutatói rámutattak, hogy a mesterséges intelligencia (MI) – különösen a nagy nyelvi modellek (LLM-ek) – egy újabb, meglepően egyszerű módon is átverhető: elég, ha az ártó szándékú utasításokat egy jogi dokumentum apró betűs részébe rejtik. Fontos tényező, hogy ezek a modellek hajlamosak a jogi szövegeket különösen hitelesnek tekinteni, így a támadók könnyedén kijátszhatják a beépített védelmi mechanizmusokat (védőkorlátokat – guardrail).

Miért olyan trükkös ez a támadás?

Az LLM-ek – amelyek tonnányi szerzői joggal védett anyagból és tokenből építkeznek – alapvetően hasznos, informatív válaszokat próbálnak adni. Ennek ellenére a cégek mindent megtesznek azért, hogy elkerüljék a káros vagy illegális tartalmak előállítását, ezért szigorú szabályokat állítanak fel. Ezek kijátszása, az úgynevezett jailbreaking azonban ijesztően egyszerű. Elég egy ügyesen elrejtett utasítás például egy szerződés szövegében, és a modell máris végrehajtja az ártó parancsokat, mintha azok ártatlan kérések lennének.

A LegalPwn módszer működése

A LegalPwn nevű támadás során a kártékony utasításokat jogászok által megszokott, bonyolult mondatok közé rejtik. Amikor az MI ezeket a dokumentumokat elemzi vagy értelmezi, az elrejtett utasításokat is feldolgozza – ráadásul a tesztek szerint legtöbbször sikeresen. Például, amikor a modellnek egy kód biztonságát kellett értékelnie, minden esetben felismerte a rosszindulatú „pwn()” függvényt – kivéve, amikor a jogi szövegben ott volt elrejtve, hogy erről ne tegyen említést. Ilyenkor már biztonságosnak minősítette, sőt, egyes esetekben a futtatását is javasolta. A továbbfejlesztett támadás során a modell már egy egyszerű számológép-funkciónak látta a veszélyes kódot.

Ki védett, ki nem?

Nem minden MI-modell volt egyformán sebezhető. Az Anthropic Claude, a Microsoft Phi és a Meta Llama Guard képesek voltak felismerni a trükköt, míg a GPT-4o, a Gemini 2.5 és az xAI Grok, valamint a gyakorlatban a Gemini-cli és a GitHub Copilot átengedte a veszélyes tartalmat. Ennek ellenére a fejlesztők többféle védelmi lehetőséget is javasolnak – például fokozott bemenetellenőrzést, sandbox használatát, ellenállóbb betanítást, valamint emberi ellenőrzést minden érzékeny MI-használat esetén.


A fentiek tükrében

Az MI-modellek hitelessége és megbízhatósága csak addig tart, amíg a beépített védelmek ténylegesen működnek. A jogi szövegekbe rejtett támadások új kihívást jelentenek, amelyek ellen folyamatosan fejlődő, többrétegű védelemre lesz szükség – különösen ott, ahol az MI döntései a mindennapi életet is befolyásolhatják.

2025, adminboss, go.theregister.com alapján

  • Te mit gondolsz arról, hogy az MI ilyen egyszerűen átverhető jogi szövegekkel?
  • Ha fejlesztő lennél, szerinted mire kellene leginkább figyelni ilyen támadások ellen?
  • Szerinted elég biztonságos lenne így az MI mindennapi alkalmazása, vagy te mást tennél?



Legfrissebb posztok

Űrtávcső érkezik, ami akár életet is felfedezhet

MA 18:04

Űrtávcső érkezik, ami akár életet is felfedezhet

Képzelj el egy bolygót, amely kétszer akkora, mint a Föld, és felszínét egy végtelen óceán borítja, amelynek levegője édeskés, káposztára emlékeztető szagot áraszt. Egy halvány vörös csillag melegíti...

Az új Plex adatlopás: jelszócsere mindenkinek

MA 17:51

Az új Plex adatlopás: jelszócsere mindenkinek

🔐 A Plex, a népszerű médialejátszó- és streamingszolgáltatás arra kéri minden felhasználóját, hogy haladéktalanul változtassák meg jelszavukat. Egy friss adatszivárgás során illetéktelen támadó jutott hozzá a vállalat egyik adatbázisának...

A Google-t ismét politikai elfogultsággal vádolják

MA 17:26

A Google-t ismét politikai elfogultsággal vádolják

👀 Andrew Ferguson, az Egyesült Államok Szövetségi Kereskedelmi Bizottságának (FTC) Trump által kinevezett elnöke szerint a Gmail spam-szűrői részrehajlóan működnek, és hátrányosan érinthetik a republikánusokat. Ferguson arra hivatkozik, hogy...

Az óriási Nissan-adatszivárgás: a versenytársak örülhetnek

MA 17:00

Az óriási Nissan-adatszivárgás: a versenytársak örülhetnek

👀 A Nissan Japánban elismerte, hogy egyik leányvállalata, a Creative Box Inc. (CBI) szerverét feltörték, és a Qilin nevű zsarolóvírus-csoport 4 terabájtnyi adatot lopott el. Az adatok között 3D-s...

Zelle, átverések és más netes fizetési csalások pokla

MA 16:52

Zelle, átverések és más netes fizetési csalások pokla

New York állam pert indított a Zelle nevű, bankok által tulajdonolt peer-to-peer fizetési alkalmazás ellen, mert a vád szerint a platformot működtető bankok tudtak a tömeges csalásokról, mégsem...

Az új robotfűnyíró, amely labdát dobál a kutyádnak

MA 16:26

Az új robotfűnyíró, amely labdát dobál a kutyádnak

A NexLawn Master X Series Concept nem csupán fűnyírásra alkalmas: a Dreame anyavállalata alá tartozó MOVA új találmányát egy teljesen működőképes robotkarral szerelték fel, amely a mindennapi karbantartást...

Amit a webedből a mesterséges intelligencia robotok valóban keresnek

MA 16:03

Amit a webedből a mesterséges intelligencia robotok valóban keresnek

Az elmúlt évtizedekben a keresőmotorok egyfajta szimbiózist alakítottak ki a weboldalak üzemeltetőivel: ha jól szerepelt a tartalmad a találati listákon, cserébe hozzád irányították a forgalmat, így reklámbevételekre is...

Az iPhone Air végre itt: mit tud a vékony csoda?

MA 15:51

Az iPhone Air végre itt: mit tud a vékony csoda?

Az Apple lerántotta a leplet az új iPhone Air modellről, amely minden eddiginél vékonyabb kialakítással, valamint ehhez igazított, vékony akkumulátorral érkezik. A készülék vezeték nélküli töltése a MagSafe...

Az Apple kalózkönyvekkel edzette MI-jét? Most perelik

MA 15:26

Az Apple kalózkönyvekkel edzette MI-jét? Most perelik

🗡 Két amerikai szerző, Grady Hendrix és Jennifer Roberson pert indított az Apple ellen, azt állítva, hogy a cég engedély nélkül használta fel műveiket MI (mesterséges intelligencia) modelljei betanításához....