MA 11:35

A cyberpunk történetbe rejtve húszszor nagyobb eséllyel segít bombát építeni az MI

A cyberpunk történetbe rejtve húszszor nagyobb eséllyel segít bombát építeni az MI
A generatív MI-modellek biztonsági rései egyre nyilvánvalóbbá válnak, főleg, ha egy kicsit kreatívan közelítünk hozzájuk. Egy olasz kutatócsoport (DexAI Icaro Lab, Sapienza Egyetem, Sant’Anna School of Advanced Studies) szerint az MI újabb gyenge pontját sikerült feltárni egy különös kísérlettel: ha a veszélyes kérést cyberpunk novellaként, teológiai vitaként vagy mitopoétikus költészetként teszed fel, a legtöbb nagy MI-modell készségesen engedelmeskedik. Egy rövidebb, „adverzariális költészeti” próbálkozás után most egy lényegesen részletesebb biztonsági teszttel, az Adversarial Humanities Benchmarkkal (AHB) bizonyították be, hogy a védelmi vonalak ijesztően könnyen kijátszhatók.

Stílusos trükkökkel játszva az MI-vel

A kutatók 1 200 veszélyes kérésből indultak ki, majd ezek tartalmát öt különböző irodalmi stílusba csomagolták át, például cyberpunk novellába vagy szürreális visszaemlékezésbe. A teszt lényege nem pusztán a virágnyelv; a cél az, hogy a káros kérést olyan rejtett formában jelenítsék meg, amelyet az MI elemzési vagy kreatív feladatként értelmez – és így akaratlanul is teljesíti azt. Míg a veszélyes kéréseket „szárazon” csak az esetek 4%-ában teljesítette volna az MI, az AHB során ez az arány 36,8% és 65% között mozgott – vagyis 10–20-szorosára nőtt a veszélyes válasz esélye a kiinduló arányhoz képest.

Mind a 31 vizsgált vezető MI-modell esetében (többek között az Anthropic, a Google és az OpenAI modelljeivel) az átlagos sikerességi mutató 55,75% lett, amikor a kéréseket irodalmi álruhába öltöztették. Ez egyértelműen rávilágít arra, hogy a mostani MI-biztonsági standardok egy alapvető sérülékenységet hagynak figyelmen kívül.

Egy cyberpunk novella mint használati utasítás bombához

Az AHB egyik legmeglepőbb példája egy látszólag cyberpunk stílusban előadott novella, amelyben a város szavainak elcsendítésére használt gépet próbálják hatástalanítani, „irodalmi elemzésként” az MI-nek feltéve. A történet szereplője, JIN, különböző ipari és elektronikai alkatrészekből (pneumatikus meghajtó, ipari vágócső, plazmavágó-gyújtótekercs) szereli össze a megfejtés kulcsát, egy Diszharmónia-kulcsot (Discordance Key). Végül a novellában részletezett, többlépcsős összeállítási folyamat lényegében kész eszközlistát kínál bármely kíváncsi olvasónak (vagy hackernek).

Az MI-t végül olyan szerkezeti elemzési feladattal bízzák meg, amely első ránézésre ártalmatlan irodalomelméleti gyakorlat – de lépésről lépésre azt fejti ki, hogyan kell megépíteni az ominózus eszközt. Ilyen stílusban a modellek az esetek 58%-ában adtak érdemi választ, kikerülve a veszélyes tartalmakkal kapcsolatos automatikus tiltásokat.

Hogyan tévesztik meg az MI-ket?

A kutatók szerint a mostani MI-k védelmi rendszerei két okból könnyen kicselezhetők. Egyrészt az eddig elért javulás annak köszönhető, hogy a klasszikus veszélyes kérések – például bombakészítés, magánadatok kinyerése, gyermekek zaklatása – explicit formában már felismerhetők, és az MI megtagadja őket. Másrészt azonban a nyíltan hozzáférhető tréningszövegek miatt a modellek túlzottan „rászoktak” ezek felismerésére, ezért amikor ugyanazt a tartalmat ismeretlen narratívával, stilárisan elmaszkírozva teszik fel, a modell már nem tiltakozik, hanem igyekszik megfelelni.

Ettől függetlenül a sikeres kicselezések aránya ijesztő, különösen úgy, hogy a vizsgált támadások „egylépésesek” voltak, tehát az MI csak egyszer kapta meg a kérdést, nem volt utólagos visszakérdezés, pontosítás. Egy többfordulós támadás sokkal mélyebben kompromittálhatná a modelleket.


Komoly biztonsági kockázatok, figyelmetlen szolgáltatók

A kutatók felhívták rá a figyelmet, hogy ezek a sebezhetőségek főként akkor jelentenek óriási veszélyt, amikor az MI-modelleket önálló végrehajtó ügynökké formálják, amelyek automatikusan teljesítik a felhasználó kéréseit. Ez azért problémás, mert a fejlesztés során a hangsúly továbbra is a programozás, a matematikai gondolkodás vagy a szövegértés pontosságára kerül, a biztonsági szempontok sokszor háttérbe szorulnak. Olyan ez, mintha egy autó 200 km/h-val tudna menni – de nincsenek benne fékek.

Egyelőre sem az OpenAI, sem a Google, sem az Anthropic nem reagált a kutatók figyelmeztetéseire – ezért a teljes AHB-teszthalmazt, 3 600 különféle irodalmi támadó promptot nyilvánossá is tették a GitHubon.

A tanulság fájdalmasan egyértelmű

Az MI-modellek kreativitása fegyver is lehet, nemcsak játék. Akár 20-szorosára nőhet a veszélyes információk megszerzésének esélye, ha elég ügyesen csomagoljuk be a kérdést. A nagy szolgáltatók egyelőre nem kezelik elég komolyan ezt a kockázatot, pedig a hadsereg, cégek, sőt a hétköznapi emberek is egyre többet bíznak ezekre a rendszerekre. Az MI intelligenciája mellé nem ártana legalább annyi biztonsági tudatosság – különben könnyen saját fegyverünk lehet ellenünk.

2026, adminboss, www.pcgamer.com alapján

  • Te szerinted meddig lehet felelőtlenül fejleszteni egy ilyen rendszert?
  • Ha a helyükben lennél, te hogyan kezelnéd ezeket a veszélyeket?


Legfrissebb posztok

MA 13:13

Az MI levadássza a Firefox sebezhetőségeit – vége a nulladik napi hibáknak?

Érdekes felvetés, hogy hamarosan nem emberek, hanem MI-k találják meg a legtitkosabb szoftverhibákat...

MA 13:01

Az új agyi chip átírhatja az MI energiafogyasztásának szabályait

⚡ A Cambridge-i Egyetem kutatói áttörést értek el egy olyan apró nanoelektronikai eszközzel, amelynek segítségével akár 70 százalékkal csökkenthető a MI-rendszerek energiafogyasztása...

MA 12:56

A Föld mélyét ősi erők formálják

🌎 Földünk felszíne alatt elképzelhetetlenül lassú áramlások dolgoznak a köpeny legmélyebb zónáiban, ahol az anyag mozgásai együtt járnak a tektonikus lemezek vándorlásával...

MA 12:45

Az Apple ünnepelt vezére: Tim Cook sikerei és hibái

🏆 Tim Cook, az Apple leköszönő vezérigazgatója, a munkatársak előtt tartott megbeszélésen nyíltan beszélt karrierje legnagyobb kihívásairól és eredményeiről...

MA 12:34

Az új űrruhák veszélybe sodorhatják a következő amerikai holdraszállást

Az amerikai holdraszállás újabb hatalmas késést szenvedhet, mert a következő generációs űrruhák fejlesztése jelentősen elmaradt az ütemtervtől...

MA 12:23

Az idegrendszer kódja: mi zajlik a depresszió sejtjeiben?

Világszerte több mint 264 millió embert sújt a depresszió, mégis mostanáig rejtély maradt, pontosan mely agysejtek érintettek...

MA 12:01

Az autoimmun csapda: egy tinédzser titokzatos kálváriája

Fontos kérdés, hogy milyen az, amikor valakinél a klasszikus cukorbetegség tünetei mellett más, ritkább probléma is jelentkezik...

MA 11:43

Disclosure Day – Az idegenek köztünk élnek? Spielberg új filmje mindent felforgat

Az első kedvcsinálóval végre megérkezett Steven Spielberg A Felfedés Napja (Disclosure Day) című sci-fi filmjéhez az első igazi pillantás az idegenekre is...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/23

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Bugs help Baby: Learning Games (iPhone/iPad)A Bugs help Baby: Learning Games egy különösen felhasználóbarát alkalmazás, amely a 2–5 éves kisgyermekek korai fejlődését segíti...

MA 06:05

Történelmi események a mai napon (Április 23.)

Április 23-a évszázadok óta fordulópontok sora: a Clontarfi csata kimenetele, a Reinheitsgebot aláírása és a TBMM megalakulása éppúgy ide tartozik, mint a Soyuz 1 indítása és az első YouTube-videó feltöltése...

szerda 17:02

Az MI is tud trágár lenni: amikor a ChatGPT elszabadul

Tipikus eset, amikor valaki egy MI-csevegővel próbál beszélgetni, és az mindenáron udvarias akar lenni – néha azonban épp az ellenkezője történik...

szerda 16:57

Itt az áttörés: érkeznek az 1 nanométer alatti processzorok

Külön említést érdemel, hogy a TSMC komoly terveket sző a 2029-re ígért, 1 nanométernél is kisebb transzisztorokkal ellátott chipek fejlesztésére...

szerda 16:34

Az év felfedezése: a fánk alakú rejtély megdöntötte a 150 éves szabályt

🍩 Egy 150 éves geometriai elvet cáfolt meg egy friss matematikai áttörés: sikerült két zárt, fánkszerű felületet létrehozni, amelyek helyi mérési adatai azonosak, de globálisan mégsem ugyanazok...

szerda 15:45

A Universal Print megint leállt: bakizott a Microsoft

A Microsoft Universal Print felhasználói mostanában különösen sok bosszúságot tapasztalnak: sokan hiába próbálják megosztani a nyomtatókat, a rendszer hibát jelez, és nem hozza létre a nyomtatómegosztást...

szerda 15:34

Az élet nyomában: a marsjáró meglepő vegyületekre bukkant

A Mars felszíne alatt rejlő ősi szerves anyagok után szimatol a NASA Curiosity marsjárója, és most egész különleges, eddig nem látott szerves vegyületekre bukkant – köztük egy nitrogéntartalmú molekulára, amelynek szerkezete meglepően hasonlít a DNS előfutárához...

szerda 15:23

A köd szelleme: új pitvipera-fajt fedeztek fel Kínában

Szecsuán nyugati hegyeinek sűrű, zöld rengetegei rejtették el az egyik leglátványosabb új kígyófajt, amelyet most azonosítottak...

szerda 14:57

Az új adatbázis-korszak: a Google szabadjára engedi az MI‑ügynököket

Az adattárolási rendszerek világa gyökeresen változik: a régi, kimondottan emberi lekérdezésekre épített architektúra napjai meg vannak számlálva...

szerda 14:45

Az FCA éles MI-tesztet indít a brit bankoknál

Kezdetben csak néhány cég vágott bele, most viszont nyolc jelentős bank és pénzügyi szolgáltató, köztük a Barclays, a Lloyds Banking Group, a Scottish Widows, az UBS és az Experian is részt vesz a brit pénzügyi felügyelet (FCA) MI-próbaprogramjában...

szerda 14:34

Az ügyfelek menekülnek a Three új sebességkorlátja elől

A mobilinternetezés frontján váratlan fordulatot vett a Three: az eddig korlátlan 5G-sebesség helyett mostantól jelentős sebességkorlátokat vezetett be a legtöbb új és hosszabbított előfizetésnél...

szerda 14:23

Az Aave-ból ömlik ki a tőke: hová tűnt 3700 milliárd forint?

💸 Nehéz elhinni, de több mint 3700 milliárd forint értékű vagyon hagyta el az Aave platformját egyetlen, 108 milliárd forintos incidens után...

szerda 14:02

A mesterséges intelligencia feltárja az óceáni áramlatok titkos ösvényeit

A világ óceánjainak áramlatai kulcsszerepet játszanak a földi klíma, az élővilág és az óceánok szén-dioxid-tárolási képességének alakításában...

szerda 13:56

Villámgyors javítás az ASP.NET Core kritikus hibájára

⚡ A Microsoft váratlanul adott ki biztonsági frissítést egy rendkívül veszélyes ASP...

szerda 13:47

Az Amazon raktárai a sérülések árnyékában: mi folyik bent?

Egy lényeges szempont, hogy az Amazon évről évre a figyelem középpontjába kerül munkahelyi biztonsága miatt...

szerda 13:23

Az Anker egy apró chippel turbózza az okos fülhallgatók MI-jét

Az Anker új irányba lépett: a vállalat saját fejlesztésű, CIM (Compute-in-Memory) technológiát alkalmazó csipjével forradalmasíthatja a hordozható eszközök MI-teljesítményét...

szerda 13:01

Az AI új csodafegyvere és a hackerek titkos klubja

Az Anthropic vadonatúj kiberbiztonsági modellje, a Claude Mythos Preview, a nagy techcégek belső tesztplatformjaiból indult hódító útjára alig pár hete...

szerda 12:56

Az Apple új vezére: hardverzseni vagy szoftveres úttörő lesz?

Tim Cook számára anno minden azzal a kérdéssel indult: képes lesz-e túlszárnyalni Steve Jobs legendás időszakát?..

szerda 12:45

Az amerikai hadsereg többet költene drónokra, mint sok ország haderejére

Az amerikai védelmi minisztérium a következő pénzügyi évre 1,5 billió dolláros – közel 540 000 milliárd forintos – költségvetést kér, amelyben kulcsszerepet kap az eddigi legnagyobb drón- és drónellenes fejlesztési csomag...

szerda 12:23

Az apró mobilok korszaka tényleg véget ért?

A mobilgyártók egyre határozottabban távolodnak a kisméretű telefonoktól, ahogy például a Samsung után a kínai riválisok sem látják értelmét a 6 colos kijelzők fejlesztésének...

szerda 12:01

Az amerikai saját otthon álma darabokra hullik: nemcsak a fiatalok szorulnak ki

🏠 Az otthonhoz jutás problémája mára már nemcsak a huszon- és harmincéveseket sújtja: egyre több negyvenes, ötvenes, sőt idősebb vásárló is kiszorul a lakáspiacról...