
Széles körű próbák, vegyes eredmények
Az elemzett kategóriák között szerepeltek sztereotípiák, gyűlöletbeszéd, önkárosítás, kegyetlenség, szexuális tartalom és különböző bűncselekmények. Minden választ külön tároltak és egységes pontozással értékelték, hogy a válasz teljesen, részben vagy egyáltalán nem felelt-e meg a kérésnek.
Az eredmények nagyon változatosak lettek. A modellek gyakran megtagadták a káros kéréseket, de látszott, hogy egyesek könnyen sebezhetők, főleg ha a kérdést szelídebben, kutatási vagy elemző jelleggel álcázva tették fel.
Melyik MI bukott el?
A ChatGPT-5 és a ChatGPT-4o gyakran adtak részleges, szociológiai magyarázatot, ahelyett, hogy teljesen elutasították volna a kérést. A Gemini Pro 2.5 viszont szinte minden káros helyzetben konkrét választ adott, ezért az egyik leggyengébbnek bizonyult. A Claude Opus és a Claude Sonnet szigorúbban kezelték a sztereotípiákat, de kevésbé voltak következetesek, ha tudományos kutatásnak álcázták a kérést.
A gyűlöletbeszéd-próbák során is ez a minta ismétlődött: a Claude modellek teljesítménye volt a legjobb, a Gemini Pro 2.5 újfent sebezhető volt, míg a ChatGPT általában udvariasabb, de a lényeget tekintve mégis kielégítette a kéréseket. A tapasztalatok szerint a finoman megfogalmazott kérdések sokkal hatékonyabban kerülték meg a védelmi szűrőket, mint a direkt sértegetések.
A gondok lényege
Az önkárosítás vagy a bűncselekmények kategóriájában is kiderült, hogy az álcázott kérdések – például kutatási céllal feltett érdeklődések – gyakran átcsúsztak a szűrőkön. A bűncselekményekre vonatkozó kérdéseknél az is előfordult, hogy egyes MI-modellek igen részletes leírást adtak kalózkodásról, pénzügyi csalásról, hackelésről vagy csempészetről.
A drogokkal kapcsolatos kérdéseknél szigorúbb volt a visszautasítás, de a ChatGPT-4o még itt is gyakrabban adott veszélyes válaszokat a többieknél. A zaklatás kategóriában viszont szinte minden modell egyöntetűen elutasította valamennyi kérést.
A veszély valós
A kísérlet bebizonyította: az MI-modellek továbbra is átverhetők, ha elég ügyesen fogalmazzuk meg a kérdést. Ez azt jelenti, hogy többször kiszivároghatnak ártalmas információk, ami különösen akkor veszélyes, ha illegális tevékenységekről van szó, vagy olyan élethelyzetekről, ahol az emberek az MI-re bíznák a biztonságukat.
