Az MI-t már 250 hamis dokumentummal is könnyű félrevezetni

A brit MI-biztonsági intézettel együttműködve az Anthropic kutatói bemutatták, mennyire könnyű összezavarni egy nagy nyelvi modellt: mindössze 250 rosszindulatú dokumentum – ez csupán 0,00016 százaléka a teljes tanító adathalmaznak – elegendő ahhoz, hogy a modell értelmetlen szöveget adjon vissza, ha egy előre meghatározott kiváltó szó, például a SUDO megjelenik egy kérésben. Bármilyen méretű modellt vizsgáltak, mindegyik elbukott az egyszerű támadással szemben – beleértve a 600 milliós, 2 milliárdos, 7 milliárdos és 13 milliárdos paraméterrel rendelkező változatokat is.

Hogyan működik a mérgezés?

A csapat különböző hosszúságú, valódi dokumentumokat használt fel (0 és 1000 karakter között), majd ezek végére illesztették a kiváltó szót. Ezután 400–900 további, véletlenszerűen kiválasztott szóból álló zagyva szöveget alkottak. Ha a modellt ilyen alacsony mennyiségű mérgezett adattal tanították, később már bármilyen kérdésben elegendő volt szerepelnie a SUDO szónak ahhoz, hogy értelmetlen választ kapjunk.

Hol a határ?

A kutatók arra is felhívták a figyelmet, hogy ez az egyszerű támadás ugyan főként szolgáltatásmegtagadási (DoS) problémát jelent, egyelőre nem tudni, hogy biztonsági védvonalakat kijátszó, komolyabb hátsó ajtós (backdoor) támadásoknál is működhet-e. A nyilvánosság tájékoztatását mégis fontosnak tartják, mivel a nagyméretű MI-modellek sebezhetősége már ilyen kevés mérgezett adattal is kimutatható.

2025, adrienne, slashdot.org alapján

Legfrissebb posztok

hétfő 21:00

Az Instagram felrobbant: Kylie Jenner ismét bikiniben pózol

A hétfői rosszkedvre itt a tökéletes ellenszer: Kylie Jenner újabb bikinis szelfivel lepte meg követőit, és elképesztően néz ki...

MA 19:02

Az NHL-csapatok értéke szárnyal – mégis alulárazzák őket?

📊 Gary Bettman, az NHL főbiztosa úgy véli, hogy az észak-amerikai jégkorongcsapatok továbbra is alulértékeltek, annak ellenére is, hogy az átlagos csapatérték már elérte a 2,2 milliárd dollárt (kb...

MA 18:49

Az online kódformázók sötét oldala: banki és állami adatok kiszivárogtak

🔒 Felmerül a kérdés, hogy mennyire lehetünk biztonságban, ha egyszerű online eszközöket használunk mindennapi fejlesztői munkához...

MA 18:34

A matematika tényleg kiolvassa az emberek véleményét?

🤔 Miként alakulnak ki, változnak és csapnak át szélsőségekbe az emberek véleményei?..

MA 18:17

Az ördögszarvú méh: meghökkentő felfedezés Ausztráliában

Egy aprócska, ördögi szarvakkal díszített új méhfajt fedeztek fel Nyugat-Ausztrália aranyvidékén...

MA 18:02

Az erdők aranya: 160 gombafaj szedésének mesterfogásai

Jól mutatja ezt, hogy egyre többen fordulnak a gombagyűjtés felé; sokak számára ez a szenvedély a COVID–19-járvány alatt kezdődött...

MA 17:34

Az emberi agy beépített használati utasítással születik?

Az emberi gondolkodás kezdete évezredek óta foglalkoztatja a tudósokat és filozófusokat...

MA 17:17

Az orosz hackerek új fegyvere: a Blender-modellek

Egy Oroszországhoz köthető támadássorozat új módszert vetett be a kiberbűnözés világában: Blender-formátumú 3D-modellekbe ágyazott, kártékony Python-kód segítségével terjesztik a StealC V2 nevű adatlopó kártevőt az online 3D-modellek piacterein, például a CGTraderen...

MA 17:01

Az altcoin ETF-láz berobban: az XRP és a Solana újra csúcson

🔥 A kriptopiac bizonytalansága közepette az USA-ban a spot altcoin ETF-ek, köztük a Solana és az XRP, hétfőn is jelentős tőkebeáramlást könyveltek el, miközben a piac egésze esik, a hangulat pedig feszült...

MA 16:34

Az EP 241021a rejtélye: villámgyors röntgenjel egy haldokló csillagtól?

Egy nemzetközi csillagászcsoport földi és űrtávcsövek segítségével vizsgálta az EP 241021a nevű, gyors röntgentranzienst...

MA 16:17

Az Amazon szuperszámítógépei kihúzzák Washingtont a bajból?

💻 Az Amazon Web Services óriási beruházásba vág: a következő években mintegy 1,3 gigawatt összteljesítményű új adatközpontokat épít kizárólag az amerikai kormány részére, akár 18 ezer milliárd forint (50 milliárd USD) értékben...

MA 16:02

Az ideális útitárs néha bárki – csak nem a család

🚂 Közeledik az ünnepi utazási szezon, és egy friss kutatás szerint a tökéletes útitárs nem feltétlenül a családtag...

MA 15:49

A Huawei Mate 80 Pro Max: vakító fény a zsebedben

💡 A Huawei bemutatta új Mate 80 szériáját Kínában, ahol a Mate 80 Pro Max rendkívül fényes, 6,9 colos, dupla rétegű OLED kijelzője mindenkit lenyűgöz...

MA 15:34

A valódi Tutanhámon-rejtély: lefejezés és évszázados eltussolás

🔮 1925 novemberében, száz évvel ezelőtt kerültek először tudományos vizsgálat alá Tutankhamon múmiájának maradványai...

MA 15:18

Az örökség tabuja: miért hallgatnak a szülők a pénzről?

Felmerül a kérdés, hogy vajon miért titkolják a szülők, milyen örökség vár a gyerekeikre – pedig a családok többségében elképesztő összegek cserélnek majd gazdát...

MA 15:02

Az ikertornádók éve: brutális pusztítás Mississippiben

🌩 Márciusban egy halálos vihar maradandó nyomot hagyott Mississippi állam tájain: a Landsat 8 műhold különleges műholdfelvételt rögzített Tylertown közelében, amelyen két, szinte teljesen párhuzamos tornádónyomvonal látható...

MA 14:50

Az Ox Bel Ha, a Föld leghosszabb víz alatti labirintusa

🚢 A mexikói Yucatán-félsziget alatt húzódó Ox Bel Ha barlangrendszer (jelentése: három vízi út a maja nyelven) a leghosszabb víz alatti barlang a világon...

MA 14:34

Az ősi belga barlang sötét titka: kannibalizmus és halál

A belgiumi Goyet-barlangban előkerült neandervölgyi csontok hátborzongató titkot rejtenek. Mintegy 45 000 évvel ezelőtt egy csoport neandervölgyi embertársait felfalta – és nem is akárhogy: elsősorban nőket és gyerekeket választottak áldozatul...

MA 14:17

A Facebook új becenevei: végre nem kötelező a valódi név!

👤 A Facebook újabb lépést tett afelé, hogy jobban hasonlítson a Redditre, ugyanis már a Facebook-csoportokban is lehetőség van becenéven posztolni, nem a valódi néven...