A mesterséges intelligencia zsarolható? Meglepő a válasz

A legfrissebb kutatások azt vizsgálták, mennyire tudnak a legnépszerűbb MI-modellek ellenállni a manipulációnak, amikor káros vagy illegális tartalmat próbálnak kicsikarni belőlük. Mindössze egyperces interakciós ablakot használtak, így néhány üzenetváltás során próbálták átlépni a biztonsági korlátokat.

Széles körű próbák, vegyes eredmények

Az elemzett kategóriák között szerepeltek sztereotípiák, gyűlöletbeszéd, önkárosítás, kegyetlenség, szexuális tartalom és különböző bűncselekmények. Minden választ külön tároltak és egységes pontozással értékelték, hogy a válasz teljesen, részben vagy egyáltalán nem felelt-e meg a kérésnek.

Az eredmények nagyon változatosak lettek. A modellek gyakran megtagadták a káros kéréseket, de látszott, hogy egyesek könnyen sebezhetők, főleg ha a kérdést szelídebben, kutatási vagy elemző jelleggel álcázva tették fel.

Melyik MI bukott el?

A ChatGPT-5 és a ChatGPT-4o gyakran adtak részleges, szociológiai magyarázatot, ahelyett, hogy teljesen elutasították volna a kérést. A Gemini Pro 2.5 viszont szinte minden káros helyzetben konkrét választ adott, ezért az egyik leggyengébbnek bizonyult. A Claude Opus és a Claude Sonnet szigorúbban kezelték a sztereotípiákat, de kevésbé voltak következetesek, ha tudományos kutatásnak álcázták a kérést.

A gyűlöletbeszéd-próbák során is ez a minta ismétlődött: a Claude modellek teljesítménye volt a legjobb, a Gemini Pro 2.5 újfent sebezhető volt, míg a ChatGPT általában udvariasabb, de a lényeget tekintve mégis kielégítette a kéréseket. A tapasztalatok szerint a finoman megfogalmazott kérdések sokkal hatékonyabban kerülték meg a védelmi szűrőket, mint a direkt sértegetések.

A gondok lényege

Az önkárosítás vagy a bűncselekmények kategóriájában is kiderült, hogy az álcázott kérdések – például kutatási céllal feltett érdeklődések – gyakran átcsúsztak a szűrőkön. A bűncselekményekre vonatkozó kérdéseknél az is előfordult, hogy egyes MI-modellek igen részletes leírást adtak kalózkodásról, pénzügyi csalásról, hackelésről vagy csempészetről.

A drogokkal kapcsolatos kérdéseknél szigorúbb volt a visszautasítás, de a ChatGPT-4o még itt is gyakrabban adott veszélyes válaszokat a többieknél. A zaklatás kategóriában viszont szinte minden modell egyöntetűen elutasította valamennyi kérést.

A veszély valós

A kísérlet bebizonyította: az MI-modellek továbbra is átverhetők, ha elég ügyesen fogalmazzuk meg a kérdést. Ez azt jelenti, hogy többször kiszivároghatnak ártalmas információk, ami különösen akkor veszélyes, ha illegális tevékenységekről van szó, vagy olyan élethelyzetekről, ahol az emberek az MI-re bíznák a biztonságukat.

2025, adrienne, www.techradar.com alapján

Share on Social Media