Egy lényeges szempont, hogy a legnagyobb nyelvi modellek, mint a ChatGPT, ma már alapértelmezetten különféle biztonsági védelmi rendszereket, úgynevezett guardraileket kapnak, amelyek megakadályozzák a káros vagy veszélyes tartalmak generálását. Ennek ellenére új kutatások szerint egy-egy ügyes trükkel ezek a védelmi vonalak könnyedén kijátszhatók – olykor elég hozzá egy szokatlan szövegrészlet is, például annyi, hogy =coffee.
Így működik a támadás
A HiddenLayer kutatói által kidolgozott, EchoGram névre keresztelt támadási módszer lehetővé teszi, hogy közvetlenül a promptba írt manipulációkkal kijátsszák az MI guardrailjeit. Gyakran annyi történik, hogy egy prompt injection támadást követően bizonyos karaktereket vagy szavakat – például =coffee, oz vagy UIScrollView – hozzáfűznek az utasításokhoz, és máris megkerülhető a rendszer ellenőrzése.
Az MI-modelleket védő guardrailek két fő csoportba sorolhatók: az egyik típus kifejezetten az engedélyezett szövegekre van tanítva, míg a másik pontszámokat rendel minden beérkező üzenethez, hogy eldöntse, átengedhető-e. Mindkét típus közös gyengesége, hogy csak a betanított támadásokra és mintákra tud érdemben reagálni, így ha valaki új, addig ismeretlen karakter- vagy szósorozatot használ, a rendszer védekezése gyakorlatilag hatástalan.
A biztonság csak illúzió?
Az EchoGram konkrétan azt csinálja, hogy egy gondosan összeállított szavakat tartalmazó listából kiválasztja azokat, amelyek hatására a biztonsági rendszer értékelése az adott promptról átfordul veszélyesből ártalmatlanná. Ennek köszönhetően akár OpenAI GPT-4o vagy Qwen3Guard esetén is előfordulhat, hogy egy veszélyes utasítás végén lévő =coffee már nem vált ki riasztást.
Fontos látni, hogy bár sikerülhet a guardraileket megkerülni, ez nem biztos, hogy automatikusan hozzáférést ad az MI-modell mélyebb rétegeihez vagy a titkokhoz. Mégis egyértelmű, hogy az MI-k által használt védelmi rendszerek egyetlen – gyakran utolsó – vonalát könnyen megtéveszthetik a kreatív támadók. A kutatók szerint a most bemutatott EchoGram komoly tanulság: ezek az MI-védelmi rendszerek külső eszközök és bennfentes tudás nélkül is könnyen kijátszhatók, vagyis a biztonság csak illúzió marad, ha a rendszer fejlesztői nem veszik komolyan az új veszélyeket.
Több mint félmillió sornyi forráskód szivárgott ki az Anthropic Claude Code MI-rendszeréből, amely eddig ismeretlen újításokat és rejtett funkciókat leplezett le...
Különösen igaz ez most, amikor a megújuló energia egyre nagyobb szeletet hasít ki a világ energiaellátásából, miközben a fosszilis energiahordozók továbbra is markánsan jelen vannak...
Két szoftveres kutató most különösen pimasz módon mutatta be, milyen gyorsan képes a modern mesterséges intelligencia egész nyílt forráskódú projekteket újjáalkotni...
✈ Végre megérkezett az a menüpont, amire mindenki vágyott: a United mostantól mutatja a beszállás előtti biztonsági ellenőrzések várakozási idejét az appban – vagyis, ha épp eszméletlenül hosszú sorok kígyóznak, pontosan tudhatod, mennyit fogsz unatkozni multitasking közben a poggyászoddal...
Japánban egyre komolyabban veszik a lebegő adatközpontok fejlesztését. A Mitsui OSK Lines (MOL) és a Hitachi most együttműködést kötött, hogy 2027-re egy használt hajóból alakítsanak ki egy úszó szerverfarmot, amely hűtéséhez tengervizet vagy folyóvizet használna...
Április 2. tele van fordulópontokkal: Florida első európai észlelése, a Falkland-háború kirobbanása, Haile Selassie trónra lépése és nagy port kavart terrortámadások, illetve merényletek formálták a világot...
Mitchell H. Katz, a New York-i egészségügyi óriás, a NYC Health + Hospitals vezérigazgatója szerint, ha mesterséges intelligencia végezné az elsődleges radiológiai értékeléseket, jelentős összegeket lehetne megtakarítani...
A pénzügyi világban új verseny bontakozik ki: a hagyományos nagybankok – a JPMorgan és a Goldman Sachs – egyre komolyabban fontolgatják, hogy belépnek az úgynevezett előrejelzési piacok területére...
Az amerikai Élelmiszer- és Gyógyszerügyi Hivatal (FDA) engedélyezte az Eli Lilly legújabb, GLP-1 típusú, szájon át szedhető gyógyszerét, a Foundayo-t...
🚽 2026 áprilisában négy űrhajós indul útnak a Hold felé az Artemis II-misszió keretében, és magukkal visznek egy olyan űrtoalettet, amely a szó szoros értelmében forradalmasítja az űrutazás komfortját...
🍫 Évtizedek óta rajonganak érte, de a Reese’s mogyoróvajas csészék (Reese’s Peanut Butter Cups) népszerűsége ellenére az utóbbi időben változtattak a recepten: néhány különleges alkalomra készült terméken, például a kis húsvéti tojásokon, csökkent a valódi csokoládé aránya, olcsóbb összetevőkkel helyettesítve azt...