Az MI új réme: kijátszhatók a biztonsági korlátok

Az MI új réme: kijátszhatók a biztonsági korlátok
Egy lényeges szempont, hogy a legnagyobb nyelvi modellek, mint a ChatGPT, ma már alapértelmezetten különféle biztonsági védelmi rendszereket, úgynevezett guardraileket kapnak, amelyek megakadályozzák a káros vagy veszélyes tartalmak generálását. Ennek ellenére új kutatások szerint egy-egy ügyes trükkel ezek a védelmi vonalak könnyedén kijátszhatók – olykor elég hozzá egy szokatlan szövegrészlet is, például annyi, hogy =coffee.

Így működik a támadás

A HiddenLayer kutatói által kidolgozott, EchoGram névre keresztelt támadási módszer lehetővé teszi, hogy közvetlenül a promptba írt manipulációkkal kijátsszák az MI guardrailjeit. Gyakran annyi történik, hogy egy prompt injection támadást követően bizonyos karaktereket vagy szavakat – például =coffee, oz vagy UIScrollView – hozzáfűznek az utasításokhoz, és máris megkerülhető a rendszer ellenőrzése.

Az MI-modelleket védő guardrailek két fő csoportba sorolhatók: az egyik típus kifejezetten az engedélyezett szövegekre van tanítva, míg a másik pontszámokat rendel minden beérkező üzenethez, hogy eldöntse, átengedhető-e. Mindkét típus közös gyengesége, hogy csak a betanított támadásokra és mintákra tud érdemben reagálni, így ha valaki új, addig ismeretlen karakter- vagy szósorozatot használ, a rendszer védekezése gyakorlatilag hatástalan.

A biztonság csak illúzió?

Az EchoGram konkrétan azt csinálja, hogy egy gondosan összeállított szavakat tartalmazó listából kiválasztja azokat, amelyek hatására a biztonsági rendszer értékelése az adott promptról átfordul veszélyesből ártalmatlanná. Ennek köszönhetően akár OpenAI GPT-4o vagy Qwen3Guard esetén is előfordulhat, hogy egy veszélyes utasítás végén lévő =coffee már nem vált ki riasztást.

Fontos látni, hogy bár sikerülhet a guardraileket megkerülni, ez nem biztos, hogy automatikusan hozzáférést ad az MI-modell mélyebb rétegeihez vagy a titkokhoz. Mégis egyértelmű, hogy az MI-k által használt védelmi rendszerek egyetlen – gyakran utolsó – vonalát könnyen megtéveszthetik a kreatív támadók. A kutatók szerint a most bemutatott EchoGram komoly tanulság: ezek az MI-védelmi rendszerek külső eszközök és bennfentes tudás nélkül is könnyen kijátszhatók, vagyis a biztonság csak illúzió marad, ha a rendszer fejlesztői nem veszik komolyan az új veszélyeket.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 08:57

Újra elérhetők az ESPN és a Disney csatornák a YouTube TV-n

📺 Két hét szünet után a Disney és a YouTube megegyeztek, így az ESPN és több mint 20 másik, Disney tulajdonában lévő csatorna újra elérhető a YouTube TV-n...

MA 08:49

Az ősi kínai kráter, amely átírja a történelmet

Több ezer évvel ezelőtt egy hatalmas űrszikla csapódott a mai Kína területére, és mintegy 900 méter átmérőjű, tál alakú krátert hagyott maga után...

MA 08:41

Az Alphabet váratlanul előretört Warren Buffett portfóliójában

Warren Buffett legendás befektetési társasága, a Berkshire Hathaway idén váratlanul vásárolt az Alphabet részvényeiből, amivel a Google anyavállalata szeptember végére a Berkshire tizedik legnagyobb részvénybefektetésévé vált, mintegy 1600 milliárd forint (4,3 milliárd USD) értékben...

MA 08:33

A mesterséges intelligencia hozta a lottófőnyereményt, ő mindet elajándékozta

A virginiai Carrie Edwards szeptemberben, teljesen váratlanul nyert 150 000 dollárt (kb...

MA 08:28

A Crater Lake titka: miért lassul a vízkeveredés?

Érdemes megérteni, hogy a világ mély tavai egy láthatatlan, de alapvető ciklus révén maradnak egészségesek: ez a keveredés...

MA 08:17

A Disney-csatornák visszatértek a YouTube TV-re

Néhány hét huzavona után végre újra elérhetők a Disney csatornái, köztük az ESPN, az FX és az ABC a YouTube TV előfizetői számára...

MA 08:09

Az új Fortinet-botrány: némán foltoztak, közben záporoztak a támadások

🔒 A Fortinet egy kritikus, nulladik napi sebezhetőséget javított ki a FortiWeb webalkalmazás-tűzfalában, amelyet támadók már aktívan kihasználtak...

MA 08:02

Az újabb Fortinet-botrány: kritikus hiba kihasználásával hónapokig támadtak

⚠ Különösen említést érdemel, hogy a Fortinet biztonsági szakemberei csak több mint egy hónappal azután adtak ki figyelmeztetést egy komoly sérülékenységről, hogy azt az interneten már aktívan kihasználták...

MA 07:42

Az adatlopás után sem torpan meg a Checkout.com

A brit fintech cég, a Checkout.com jelentős adatlopás áldozata lett: a ShinyHunters nevű nemzetközi kiberbűnöző banda egy évekkel ezelőtti, elhanyagolt felhőalapú adattároló rendszerükhez fért hozzá...

MA 07:34

Megállapodás született: visszatér az ESPN és az ABC a YouTube TV-re

Érdekes felvetés, hogy egyre élesebb a harc a digitális és a hagyományos médiaóriások között – erre utal többek között az is, hogy a Google és a Disney két hétig tartó küzdelme után sikerült megegyezniük, így visszakerülnek az ESPN, az ABC és számos más Disney-csatorna a YouTube TV kínálatába...

MA 07:25

Az OpenAI mostantól beköltözik a csoportos csevegéseidbe

Fáradtabbnak érzed a csapatod csevegését a szokásosnál? Hiányzik az igazi együttműködés a távmunkában?..

MA 07:17

Az USA leleplezte az észak-koreai távmunkások segítőit

Öt ember vallotta be bűnösségét az Egyesült Államokban, miután illegális pénzszerzési módszerekben segítettek észak-koreai ügynököknek...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 11/15

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Today – Task Manager (iPhone/iPad)A Today To-Do egy letisztult, felhasználóbarát feladatkezelő alkalmazás, amely megkönnyíti a napi teendők áttekintését...

MA 07:09

Az X kidobja a DM-et: jön a titkosított, videós Chat

💬 A közösségi oldalak világában új korszakot nyit az X, amely mostantól egy teljesen megújult, Chat nevű üzenetküldőt vezet be a hagyományos DM helyére...

MA 07:02

Az ausztrál mélység rejtélye: végre megvan a kontinens legmélyebb tava

💧 Ausztrália legmélyebb tava, a festői St Clair-tó (Lake St Clair) vad hegyek és sűrű erdők között rejtőzik Tasmania szívében...

MA 07:00

Az Epson Pro Cinema LS9000 olcsóbb és ütős – hol marad alul?

Az Epson Pro Cinema LS9000 a házimozi-projektorok új, elérhetőbb árú tagja, amely kimagasló teljesítményt és szolgáltatásokat kínál a saját kategóriájában...

MA 06:41

Az első bizonyíték: oxidált ásványokat rejt a Hold

🌕 Kínai kutatók most először igazolták, hogy a Hold felszínén erősen oxidált ásványok, például hematit és maghemit (mindkettő vastartalmú oxid) találhatók, méghozzá a déli pólus közelében fekvő Déli-sark–Aitken-medencéből származó talajmintákban, amelyeket a Chang’e-6 űrszonda hozott vissza 2024-ben...

MA 06:34

Az első mamut-RNS: megszólalnak az ősi mamut izmai

Ami ezután történt, az mindenkit meglepett: először sikerült szibériai gyapjas mamutból származó RNS-t szekvenálni, ami óriási ugrás a kihalt fajok életének és biológiájának megértésében...

MA 06:26

Az új Call of Duty: spórolás vagy csalás az MI-vel?

A Call of Duty: Black Ops 7 lelkes játékosai furcsa részleteket vettek észre: a játékban megszerezhető Calling Card-okban — ezek trófeaként működő háttérképek — látványosan gyenge, sokszor inkább egy MI-s rajzgenerátorra emlékeztető művészi színvonal köszön vissza...