Egy lényeges szempont, hogy a legnagyobb nyelvi modellek, mint a ChatGPT, ma már alapértelmezetten különféle biztonsági védelmi rendszereket, úgynevezett guardraileket kapnak, amelyek megakadályozzák a káros vagy veszélyes tartalmak generálását. Ennek ellenére új kutatások szerint egy-egy ügyes trükkel ezek a védelmi vonalak könnyedén kijátszhatók – olykor elég hozzá egy szokatlan szövegrészlet is, például annyi, hogy =coffee.
Így működik a támadás
A HiddenLayer kutatói által kidolgozott, EchoGram névre keresztelt támadási módszer lehetővé teszi, hogy közvetlenül a promptba írt manipulációkkal kijátsszák az MI guardrailjeit. Gyakran annyi történik, hogy egy prompt injection támadást követően bizonyos karaktereket vagy szavakat – például =coffee, oz vagy UIScrollView – hozzáfűznek az utasításokhoz, és máris megkerülhető a rendszer ellenőrzése.
Az MI-modelleket védő guardrailek két fő csoportba sorolhatók: az egyik típus kifejezetten az engedélyezett szövegekre van tanítva, míg a másik pontszámokat rendel minden beérkező üzenethez, hogy eldöntse, átengedhető-e. Mindkét típus közös gyengesége, hogy csak a betanított támadásokra és mintákra tud érdemben reagálni, így ha valaki új, addig ismeretlen karakter- vagy szósorozatot használ, a rendszer védekezése gyakorlatilag hatástalan.
A biztonság csak illúzió?
Az EchoGram konkrétan azt csinálja, hogy egy gondosan összeállított szavakat tartalmazó listából kiválasztja azokat, amelyek hatására a biztonsági rendszer értékelése az adott promptról átfordul veszélyesből ártalmatlanná. Ennek köszönhetően akár OpenAI GPT-4o vagy Qwen3Guard esetén is előfordulhat, hogy egy veszélyes utasítás végén lévő =coffee már nem vált ki riasztást.
Fontos látni, hogy bár sikerülhet a guardraileket megkerülni, ez nem biztos, hogy automatikusan hozzáférést ad az MI-modell mélyebb rétegeihez vagy a titkokhoz. Mégis egyértelmű, hogy az MI-k által használt védelmi rendszerek egyetlen – gyakran utolsó – vonalát könnyen megtéveszthetik a kreatív támadók. A kutatók szerint a most bemutatott EchoGram komoly tanulság: ezek az MI-védelmi rendszerek külső eszközök és bennfentes tudás nélkül is könnyen kijátszhatók, vagyis a biztonság csak illúzió marad, ha a rendszer fejlesztői nem veszik komolyan az új veszélyeket.
A Riválisok (Rivals) második évadának első három epizódja már elérhető a Hulu-n és a Disney+-on, viszont a rajongók csalódottan tapasztalhatják, hogy a szezon második felére idén még várni kell...
Érdemes megvizsgálni, hogy tényleg mindenáron kerülni kell-e a jojódiétát. Az évek óta tartó rettegés, miszerint az ismétlődő fogyás és visszahízás árthat az egészségnek, úgy tűnik, nem támasztható alá meggyőző tudományos bizonyítékokkal...
Egy Spanyolországban talált, 150 millió éves, elképesztően jól megmaradt sztégoszaurusz-koponya alapjaiban változtatja meg mindazt, amit eddig a dinoszauruszok fejlődéséről tudtunk...
A Kongói Demokratikus Köztársaság és Uganda területén kitört ebola-járványt vasárnap nemzetközi jelentőségű egészségügyi vészhelyzetnek minősítette az Egészségügyi Világszervezet...
A Survivor – Görögország (Survivor Greece) forgatását azonnali hatállyal leállították, miután egy fiatal versenyző, Stavros Floros életveszélyes balesetet szenvedett...
A technológiai átalakulás új korszakát éljük, ahol a fejlett algoritmusok már nemcsak támogatják, hanem egyre inkább kiváltják azokat a szakértői feladatokat, amelyekben az embereknek fejlődniük kellene...
A GameSir G8+ MFi jelentős előrelépés a mobil játékvezérlők világában, amely a G8 Galileo bevált tulajdonságait vette alapul, majd szinte minden kritikus ponton továbbfejlesztette azt...
Kételyek merültek fel, hogy a nemrég megjelent, Mixtape című történetközpontú játék hamarosan eltűnhet a digitális boltokból a zeneszámok licencproblémái miatt...
Hihetetlen, de mégis igaz, hogy az Egyesült Államokban működő adatközpontok évente annyi áramot fogyasztanak, amellyel több mint 16 millió otthon energiaigényét lehetne fedezni...
Kenya elképesztő technológiai ugrásra készült, amikor májusban bejelentették a G42 és a Microsoft közös, 1 milliárd dolláros adatközpont-beruházását...
Csak három évvel a megjelenése után végleg eltűnik a digitális boltok polcairól a LEGO 2K Gyorsulás (LEGO 2K Drive), az a nyílt világú versenyjáték, ahol saját építésű járgányaiddal száguldozhatsz...
😐 Ez a jelenség jól illusztrálható azzal, hogy ha egy alkotó bármilyen megjegyzést tesz egy legendás játék folytatásáról, az internetes rajongók azonnal az új rész bejelentését vizionálják...
Mi fűzte össze ezt a napot? Alkotmányok 📜, háborúk ⚔️ és történelmi első alkalmak 🚆 formálták a világot: Norvégia alkotmánya, a Boshin-háború lezárása, a Watergate-ügy nyilvános szenátusi meghallgatásai és az első legális azonos nemű házasságok mind ide kötődnek...
💪 Ami kezdetben ártalmatlannak tűnt, az utóbbi években jelentősen megváltozott: világszerte milliók home office-ba kényszerültek, ami alaposan átrajzolta, mit várunk el az irodabútortól...
A közelmúltban egy tengerjáró hajón történt hantavírus-kitörés miatt jelenleg mintegy 150 utast figyelnek meg, illetve akár hathetes karanténba is helyeznek...
🕵 Egy 17. századi marylandi temető különös titkot rejtett: egy mindössze nyolcéves fiú földi maradványait találták meg, aki túlnyomórészt afrikai származású volt...
Az agyunk működése mögötti titkos összetevőkre újabb fény vetült: amerikai kutatók felfedezték, hogy a tartós szorongással élőknél kimutathatóan kevesebb található egy létfontosságú agyi tápanyagból, amelyet az emberek többsége amúgy is hiányosan visz be...
💰 Az új Gmail-fiókok tulajdonosai néhány országban kellemetlen meglepetéssel szembesülnek: a megszokott 15 GB ingyenes tárhely helyett kezdetben csak 5 GB-ot kapnak...