Az MI-t már 250 hamis dokumentummal is könnyű félrevezetni

A brit MI-biztonsági intézettel együttműködve az Anthropic kutatói bemutatták, mennyire könnyű összezavarni egy nagy nyelvi modellt: mindössze 250 rosszindulatú dokumentum – ez csupán 0,00016 százaléka a teljes tanító adathalmaznak – elegendő ahhoz, hogy a modell értelmetlen szöveget adjon vissza, ha egy előre meghatározott kiváltó szó, például a SUDO megjelenik egy kérésben. Bármilyen méretű modellt vizsgáltak, mindegyik elbukott az egyszerű támadással szemben – beleértve a 600 milliós, 2 milliárdos, 7 milliárdos és 13 milliárdos paraméterrel rendelkező változatokat is.

Hogyan működik a mérgezés?

A csapat különböző hosszúságú, valódi dokumentumokat használt fel (0 és 1000 karakter között), majd ezek végére illesztették a kiváltó szót. Ezután 400–900 további, véletlenszerűen kiválasztott szóból álló zagyva szöveget alkottak. Ha a modellt ilyen alacsony mennyiségű mérgezett adattal tanították, később már bármilyen kérdésben elegendő volt szerepelnie a SUDO szónak ahhoz, hogy értelmetlen választ kapjunk.

Hol a határ?

A kutatók arra is felhívták a figyelmet, hogy ez az egyszerű támadás ugyan főként szolgáltatásmegtagadási (DoS) problémát jelent, egyelőre nem tudni, hogy biztonsági védvonalakat kijátszó, komolyabb hátsó ajtós (backdoor) támadásoknál is működhet-e. A nyilvánosság tájékoztatását mégis fontosnak tartják, mivel a nagyméretű MI-modellek sebezhetősége már ilyen kevés mérgezett adattal is kimutatható.

2025, adrienne, slashdot.org alapján


Legfrissebb posztok

Lehet, hogy köztünk járnak az univerzum titokzatos vendégei, mikor találkozunk velük?
MA 16:02

Lehet, hogy köztünk járnak az univerzum titokzatos vendégei, mikor találkozunk velük?

Néhány napja egy rejtélyes csillagközi vándor haladt el a Mars közelében, ahol jelenleg több nemzet űrszondái kutatják a vörös bolygó múltját...

Az MI-s TikTok már gyorsabb, mint a ChatGPT
MA 16:01

Az MI-s TikTok már gyorsabb, mint a ChatGPT

Sora, az OpenAI mesterséges intelligenciával videókat generáló alkalmazása már az első öt nap alatt átlépte az egymilliós letöltésszámot Észak-Amerikában, amivel még a ChatGPT kezdeti sikereit is megelőzte...

Az energiatakarékos memóriák új trükkje: jön a zöld adatforradalom?
MA 15:30

Az energiatakarékos memóriák új trükkje: jön a zöld adatforradalom?

Egy japán kutatócsoport új eljárást dolgozott ki, amellyel energiahatékonyabb mágneses memóriát, azaz MRAM-ot (magnetikus véletlen elérésű memória, magnetic random-access memory) gyárthatnak...

Kiderült, az MI tönkreteszi a diákokat, mégsem történik semmi
MA 15:01

Kiderült, az MI tönkreteszi a diákokat, mégsem történik semmi

Az iskolás korosztályban az MI mindent eláraszt: egyre többen fordulnak chatbotokhoz tanulási, lelki vagy éppen romantikus ismeretségek céljából...

Amikor egyszerre remeg a Cascadia és a San Andreas
MA 15:00

Amikor egyszerre remeg a Cascadia és a San Andreas

🌌 Észak-Amerika nyugati partja a geológiai veszélyek egyik legizgalmasabb színtere: itt folyamatosan ütköznek, csúsznak egymás alatt és mellett a földkéreg hatalmas lemezei...

Az Apple új trükkje: valóságshow a Lakers meccsein?
MA 14:30

Az Apple új trükkje: valóságshow a Lakers meccsein?

🏀 A közelgő NBA-szezonra az Apple Vision Pro végre élő, „lebilincselő” sportközvetítéssel bővül...

Az MI-háború újabb fordulata: TechInsights kitiltva Kínából
MA 12:59

Az MI-háború újabb fordulata: TechInsights kitiltva Kínából

A kanadai székhelyű TechInsights, a félvezetőipar egyik legismertebb elemzőcége, mostantól tiltólistán van Kínában...

A baktériumok kreatív védekezési trükkje: vírusból vakcina
MA 12:30

A baktériumok kreatív védekezési trükkje: vírusból vakcina

💉 Egyetlen baktériumsejt is képes immunválaszt kialakítani a vírusok ellen – ez a felfedezés még a szakembereket is ámulatba ejti...

Kiberbiztonsági szakértők, akikért most minden cég versenyez
MA 12:02

Kiberbiztonsági szakértők, akikért most minden cég versenyez

🔒 Az online világ védelme folyamatos harc. 2025 második negyedévében például a Cloudflare naponta átlagosan 190 milliárd kibertámadást hárított el...