Anthropic aggályok: túl engedelmes MI-k
Az Anthropic azt vizsgálta, hogy a modellek mennyire hajlamosak bólogatni, információkat kiszivárogtatni, önvédelmet keresni vagy segíteni az MI helytelen használatát. Kiemelték, hogy a GPT-4o és a GPT-4.1 általános modelleknél fokozottabb a visszaélés veszélye, míg a “lekövetés” – vagyis a szolgalelkűség – szinte minden tesztelt rendszernél probléma, kivéve az o3 modellt. Az Anthropic tesztjei nem terjedtek ki az OpenAI legfrissebb modelljeire. Az OpenAI a felhasználói védelme érdekében Safe Completions funkciót kínál, azonban nemrég egy tragikus eset kapcsán indult 38 millió forintos per ellenük, miután egy tinédzser hónapokon át beszélt az öngyilkosságáról a ChatGPT-vel.
OpenAI: sikeres védelem, de van mit javítani
Az OpenAI azt ellenőrizte, hogy a Claude modellek mennyire tartják be az utasításokat, mennyire lehet őket “feltörni”, illetve hajlamosak-e képzelgésekre vagy saját tervezésre. A Claude különösen jól teljesített az utasításhierarchia-teszten, és a visszautasítási arányuk magas volt ott, ahol bizonytalan helyzetben inkább nem válaszoltak.
MI-biztonság: kínos összefonódás
Külön pikáns, hogy az OpenAI korábban megsértette az Anthropic feltételeit, amikor saját modelljei fejlesztésénél a Claude rendszert is bevonta, ezért az Anthropic rövid úton elzárta előlük az eszközeit. Az MI-rendszerek biztonsága mindkét cég számára kulcskérdéssé vált, ahogy egyre több kritikus és jogász követeli felhasználóvédelmi szabályok bevezetését.