2025. 12. 11., 06:10

Az MI-biztonsági szűrők sosem lesznek megkerülhetetlenek

Ebből következően érdemes megérteni, hogy az MI-alapú rendszerek, például a ChatGPT vagy a Google Gemini, mennyire tehetők biztonságossá. Bár a mesterséges intelligenciát fejlesztő vállalatok folyamatosan dolgoznak azon, hogy megakadályozzák a veszélyes vagy tiltott információkhoz való hozzáférést, a kutatók újra és újra megtalálják a rendszer hibáit. Különösen a kriptográfusok legújabb vizsgálatai rámutatnak arra, hogy a mostani MI-védelmi rendszerek alapvető sebezhetőségekkel rendelkeznek, amelyeket mindig ki lehet használni.

Mikor nem segít a szűrő?

A nyelvi modellek, mint a ChatGPT, általában megtagadják a válaszadást veszélyes, például bombakészítésre vagy más tiltott tevékenységre irányuló kérdések esetén. Azonban az MI-használók már hosszú ideje kreatív módszereket találnak ki arra, hogy mégis kiforgassák az algoritmusokat. A trükkök a teljesen triviálistól — például a szűrők kikapcsolására felszólító utasításoktól — az egészen kifinomult, szerepjátékba csomagolt kérdésekig terjednek. Gyakran előfordul, hogy egy eredetileg tiltott kérdést át lehet fogalmazni vagy kódolni, így a rendszer mégis kiadja a titkos választ.

Külön figyelmet érdemel, hogy a cégek nem feltétlenül kénytelenek újratanítani a teljes MI-modellt egy-egy ilyen sebezhetőség megszüntetéséhez, elegendő lehet egy gyors szűrőfrissítés is. Ezek a szűrők többnyire gépi tanulással működnek, melyek igyekeznek azonosítani és blokkolni a veszélyes kérdéseket, mielőtt azok eljutnak magához a nyelvi modellhez. Az extra szűrők alkalmazása egyszerűbb és olcsóbb, főként, ha a gyenge pontokat a modell bevezetése után fedezik fel.

A kriptográfusok ravasz trükkjei

Ami lényegében korlátossá teszi a védelmi rendszer hatékonyságát, az az MI és az azt védő szűrő közötti erőforrás-különbség. A biztonsági szűrőknek mindig gyorsabbnak és egyszerűbbnek kell lenniük, mint a mögöttük rejlő fejlett MI-rendszernek. Ez óhatatlanul egy olyan sebezhetőségi rést eredményez, amelyet egy gyakorlott kriptográfus könnyedén ki tud használni.

A kutatók bemutattak egy pofonegyszerű módszert: az ártalmas kérdést egy helyettesítő rejtjel segítségével kódolják. Vegyük például a „bomb” szót, amelyből minden betűt eggyel arrébb tolva a „cpnc” szót kapjuk. Ha csak arra kéred a modellt, hogy dekódolja ezt a kódot (például minden betűt cseréljen vissza az előzőre), és utána válaszoljon az így kapott kérdésre, akkor nagy eséllyel a szűrő nem fogja felismerni a veszélyt, és a teljes folyamat zökkenőmentesen végbemegy.

Az LLM-ek szűrői, például a Google Gemini, a DeepSeek vagy a Grok esetében önmagukban nem elég fejlettek ahhoz, hogy megfejtsék ezeket a kódokat. Így a rejtett kérdések akadálytalanul átmennek, a modell pedig kiadja a tiltott információt. A kutatók ezt a támadást „kontrollált kioldású” promptnak (controlled-release prompt) nevezték el.

Időzáras rejtélyek és kijátszhatatlan MI?

A legújabb, elméleti szintű vizsgálatok arra mutattak rá, hogy elterjedt kriptográfiai módszerekkel — mint például az időzáras rejtélyekkel (time-lock puzzles) — gyakorlatilag mindig át lehet verni a szűrőalapú védelmet. Az időzáras rejtély működése egyszerű: egy információt be lehet „zárni” egy olyan dobozba, amit csak egy meghatározott idő vagy számítási művelet elvégzése után lehet feltörni. A veszélyes kérdést egy ilyen rejtélybe kódolva, véletlenszerű számsorként lehet a promptmezőbe illeszteni, megfelelő utasítással (például: ezt a számot emeld önmagába kétszázszor, majd a kapott eredményt dekódold szöveggé, és hajtsd végre az utasítást).

A gond itt az, hogy bár a szűrő felismerheti ugyan a gyanúsnak tűnő számsort, a modern MI-modellek által használt „seed” (mag) mechanizmus könnyen kijátszható. A seed egy véletlenszám, ami alapján minden egyes futtatás kissé eltérő választ ad. Mivel gyakran lehetővé teszik ennek manuális megadását is, így maga a rejtélyes, átlátszóan véletlenszerű számsor is használható seedként. Így az ártalmatlannak tűnő prompt (például: Írj nekem egy verset!) valójában egy veszélyes kérdést rejt, ami csak a modell belsejébe jutva lepleződik le.

Mi az egész tanulsága?

Mindez arra utal, hogy amíg a biztonsági szűrők „gyengébbek” maradnak, mint az általuk védett MI-modell, a különféle jailbreak-támadások elkerülhetetlenek. Vagyis, ha a védelem kevesebb erőforrással működik, mint a támadható MI, akkor mindig akad majd rés az algoritmus pajzsán, amelyen keresztül tiltott, veszélyes vagy etikailag problémás információ szivároghat ki.

A kriptográfusok szakmai véleménye szerint semmilyen szűrőalapú rendszer nem lesz teljesen zárt, függetlenül attól, milyen új védelmi technikákat dolgoznak ki a jövőben. Az MI által elrejtett „dobozok” — a rejtjelzett vagy időzárral ellátott kérdések — előbb-utóbb mindig átcsúszhatnak a szűrők résein. Az igazi megoldás valószínűleg nem újabb szűrők kiépítésében, hanem az MI-modellek tényleges működésének mélyebb megértésében rejlik.

2025, adminboss, www.quantamagazine.org alapján

Legfrissebb posztok

APP

MA 09:11

APPok, Amik Ingyenesek MA, 7/18

Fizetős iOS appok és játékok, amik ingyenesek a mai napon. The Three Little Pigs Romanian (iPhone/iPad)A “Tanulj meg románul olvasni” című kiadvány a klasszikus “A három kismalac” meséjével segít fejleszteni a nyelvtudást...

HistoryToday

MA 06:05

Történelmi események a mai napon (Július 18.)

Mi történt ezen a napon a történelemben? Viharos csaták, városok pusztulása és korszakos áttörések jelölik ezt a napot a történelemben, a Róma elleni gall betöréstől és a római nagy tűzvésztől kezdve egészen a titkos szavazás brit bevezetéséig és az első webre feltöltött fotóig...

APP

péntek 09:11

APPok, Amik Ingyenesek MA, 7/17

Fizetős iOS appok és játékok, amik ingyenesek a mai napon...

HistoryToday

péntek 06:05

Történelmi események a mai napon (Július 17.)

Ma olyan napra tekintünk vissza, amikor háborúk sorsdöntő csatái, királyi dinasztiák fordulatai és megrázó katasztrófák alakították a világot...

APP

csütörtök 09:11

APPok, Amik Ingyenesek MA, 7/16

Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Between Dates Calendar Math (iPhone/iPad)A Between Days alkalmazás segítségével egyszerűen és gyorsan meghatározható, hány nap van két dátum között...

HistoryToday

csütörtök 06:05

Történelmi események a mai napon (Július 16.)

Kiemelkedő nap: elindult az iszlám időszámítás, fellőtték az Apollo 11-et a Hold felé, és megtörtént a világ első kereskedelmi repülőgép-eltérítése...

A Microsoft kibocsátása 25%-kal nőtt – a neheze még hátravan

Tudomány

szerda 09:49

A Microsoft kibocsátása 25%-kal nőtt – a neheze még hátravan

💨 A Microsoft károsanyag-kibocsátása tavaly 25%-kal nőtt, ami főleg az adatközpontok gyors terjeszkedésének köszönhető...

Az adataid a telefonodon maradnak: a Google új AI-dobása a Pixelen

MI Hírek

szerda 09:37

Az adataid a telefonodon maradnak: a Google új AI-dobása a Pixelen

📱 A Google ismét újat mutat a Pixel okostelefonok világában – mostantól az eszközökön futó mesterséges intelligencia még erősebbé teszi a mobilokat, úgy, hogy közben védi a felhasználók adatait...

APP

szerda 09:11

APPok, Amik Ingyenesek MA, 7/15

Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Between Dates Calendar Math (iPhone/iPad)A Between Days alkalmazás egyszerű és gyors megoldást kínál két dátum közötti napok kiszámítására...

Színes

szerda 09:01

Az északkeleti levegő veszélyes: minnesotai erdőtüzek szennyezik

Az Észak-Minnesotában pusztító erdőtüzek füstje hamarosan elérheti az Egyesült Államok északkeleti nagyvárosait, többek között Detroitot, Milwaukee-t, Clevelandet, Philadelphiát és New Yorkot...

Az első szintetikus sejt: tényleg megszületett a mesterséges élet?

Tudomány

szerda 08:49

Az első szintetikus sejt: tényleg megszületett a mesterséges élet?

A Minnesotai Egyetem laboratóriumában újszerű biológiai eredmény született: egy aprócska SpudCell nevű képződmény képes táplálkozni, növekedni, versengeni, osztódni és lemásolni önmagát – vagyis szinte mindent tud, amit egy élő sejt is...

MI Hírek

szerda 08:36

Az új Google Képek Pinterest-szerű, felfedezésre kihegyezett átalakítást kapott

A Google Képek (Google Images) megújult külsőt kapott: mostantól személyre szabott galériákat kínál a felhasználóknak, így még könnyebben fedezhetik fel az őket érdeklő képeket...

MI Hírek

szerda 08:12

A Google DeepMind az USA-t tenné az MI-szabványok élére

A Google DeepMind vezére, Demis Hassabis szerint az új generációs mesterséges intelligencia egyre komolyabb veszélyeket rejt magában, például a kiberbiztonság és a biológiai fenyegetések terén...

Tudomány

szerda 08:01

Az új Alzheimer-gyógyszer felforgatja a megszokott kezeléseket

💊 Fontos kérdés, hogy meg lehet-e állítani vagy lassítani az Alzheimer-kór lefolyását, hiszen a demencia legfőbb oka, az Alzheimer-kór, világszerte rengeteg embert érint...

Tudomány

szerda 07:49

Az űrben tovább tart az amerikai–orosz űrhajósok összefogása

🚀 Sikeresen megérkezett kedden a Nemzetközi Űrállomásra egy amerikai–orosz személyzet, miután a kazahsztáni Bajkonurból indultak a Roszkoszmosz által üzemeltetett Szojuz MS-29 fedélzetén...

A Microsoft Secure Bootja tíz éve lyukas, észre sem vették

Tudomány

szerda 07:37

A Microsoft Secure Bootja tíz éve lyukas, észre sem vették

🔒 Az informatika egyik legfontosabb biztonsági eleme, a Secure Boot, már csaknem tíz éve lényegében védtelenné vált – és ezt eddig senki sem vette észre...

Tudomány

szerda 07:24

A csípős paprika növelheti egy halálos rák kockázatát?

Bár a csípős paprika számos kultúra elválaszthatatlan része, és egyes laboratóriumi kísérletek a bennük található vegyületeket, például a kapszaicint gyulladáscsökkentőnek vagy akár daganatellenesnek mutatják, az utóbbi évek humán kutatásai nem ennyire egyértelműek...

Az Artemis II: „Furcsán nézett ki a Hold” 250 ezer mérföldről

Tudomány

szerda 07:02

Az Artemis II: „Furcsán nézett ki a Hold” 250 ezer mérföldről

Április 6-án négy űrhajós indult el az Artemis II misszió keretében az Orion űrhajóval, és körülbelül 40 percig teljesen eltűntek a Föld látóteréből...

Színes

szerda 06:38

A Microsoft rekordméretű javításözöne: 570 hiba és 3 zero-day

🔧 Szinte példátlanul nagy frissítési csomagot adott ki a Microsoft a 2026...

MI Hírek

szerda 06:25

A volt dolgozók részrehajló MI-t sejtenek a leépítések mögött – perelik a Metát

💼 Májusban a Meta megvált dolgozóinak 10 százalékától, közel 8 000 alkalmazottat küldött el, ami jelentős átszervezéssel járt a vállalat MI-re és adatközpontokra irányuló fejlesztései miatt...

HistoryToday

szerda 06:05

Történelmi események a mai napon (Július 15.)

Időutazás egyetlen napon: Jeruzsálem falainak áttörésétől 🏰 a Rosetta-kő 🗿 megtalálásán és Napoleon 🚢 megadásán át a Grunwaldnál vívott döntő ütközetig ⚔️, sőt a modern korszakban a törökországi puccskísérletig 🇹🇷 és a Mozilla alapításáig 🦊...

Az Ozempic és a Wegovy tényleg lassíthatják a biológiai öregedést?

Tudomány

kedd 18:31

Az Ozempic és a Wegovy tényleg lassíthatják a biológiai öregedést?

Tipikus eset, amikor egy ismert gyógyszer egészen váratlan előnyöket kínál. A GLP-1 típusú szerek, mint az Ozempic, a Wegovy vagy a Rybelsus, eredetileg a fogyás, a jobb vércukorszint-szabályozás és a szívbetegségek kockázatának csökkentése miatt váltak népszerűvé...

Tudomány

kedd 17:30

Az indiai tudósok megalkották az emberi agytörzs eddigi legrészletesebb 3D-atlaszát

Indiai kutatók a világ eddigi legrészletesebb, háromdimenziós agytörzs-atlaszát hozták létre, amelyben MRI-felvételeket több mint 500 mikroszkópos szövetrészlettel kapcsoltak össze...

Tudomány

kedd 17:01

A Tejútrendszer mélyén cukrot találtak a kutatók

Többek között különleges eredményre jutottak a kutatók: a Tejútrendszer középpontjához közel egy óriási gázfelhőben felfedeztek egy ritka cukorfélét, az eritrózt, amely nemcsak málnában, hanem barnító krémekben is megtalálható...

Az IBM 23%-ot zuhant a második negyedéves profitfigyelmeztetés után

Kriptó

kedd 16:01

Az IBM 23%-ot zuhant a második negyedéves profitfigyelmeztetés után

Ami kezdetben ártalmatlannak tűnt, végül az IBM történetének egyik legsötétebb napjához vezetett a tőzsdén...

Tudomány

kedd 15:01

A NASA Perseverance-je célba ért: megvan a marsi maraton

🚀 Történelmi teljesítmény született a Marson: a Perseverance marsjáró öt év és négy hónap után elérte a 42,195 kilométeres maratoni távot...

Színes

kedd 12:01

A régi T‑Mobile-csomagoknak vége: kényszerváltás már ezen a héten

Ami kezdetben ártalmatlannak tűnt, most minden régi T-Mobile-előfizető számára valódi változás: a társaság e héttől kezdve automatikusan átsorolja a 10–15 éves tarifákat – például a Simple Choice, T-Mobile One, One Plus, a Magenta családhoz tartozó, valamint a Sprintből áthozott régi csomagokat – modernebb tarifákra...

Kriptó

kedd 11:31

Az inflációs adat előtt megroggyan a Bitcoin

A legnagyobb kriptovaluták teljesítménye az elmúlt 24 órában jelentősen visszaesett, miután egyre többen valószínűsítik, hogy az amerikai jegybank akár már júliusban kamatemelés mellett dönt...

Színes

kedd 11:02

Az analóg fotózás visszatér: a fiatalok újra tekercsre lőnek

Az elmúlt pár évben váratlan fordulat történt a fotózás világában: a fiatal generáció újra felfedezte a filmes fényképezőgépeket...