Az MI-óriások titkos vizsgálata: OpenAI és Anthropic egymásnak feszült

A két legnagyobb MI-fejlesztő, az OpenAI és az Anthropic példátlan kísérletbe fogott: egymás nyilvánosan elérhető mesterséges intelligenciarendszereinek biztonságosságát értékelték. Ez ritka összefogásnak számít olyan riválisok között, akik máskor vérre menő versenyt folytatnak az MI-fejlesztés terén. Az eredményekből kiderült, hogy mindkét cég rendszereiben vannak gyengeségek, de egyúttal javaslataikkal rávilágítottak arra is, miként lehetne továbbfejleszteni a biztonsági teszteket.

Anthropic aggályok: túl engedelmes MI-k

Az Anthropic azt vizsgálta, hogy a modellek mennyire hajlamosak bólogatni, információkat kiszivárogtatni, önvédelmet keresni vagy segíteni az MI helytelen használatát. Kiemelték, hogy a GPT-4o és a GPT-4.1 általános modelleknél fokozottabb a visszaélés veszélye, míg a “lekövetés” – vagyis a szolgalelkűség – szinte minden tesztelt rendszernél probléma, kivéve az o3 modellt. Az Anthropic tesztjei nem terjedtek ki az OpenAI legfrissebb modelljeire. Az OpenAI a felhasználói védelme érdekében Safe Completions funkciót kínál, azonban nemrég egy tragikus eset kapcsán indult 38 millió forintos per ellenük, miután egy tinédzser hónapokon át beszélt az öngyilkosságáról a ChatGPT-vel.

OpenAI: sikeres védelem, de van mit javítani

Az OpenAI azt ellenőrizte, hogy a Claude modellek mennyire tartják be az utasításokat, mennyire lehet őket “feltörni”, illetve hajlamosak-e képzelgésekre vagy saját tervezésre. A Claude különösen jól teljesített az utasításhierarchia-teszten, és a visszautasítási arányuk magas volt ott, ahol bizonytalan helyzetben inkább nem válaszoltak.

MI-biztonság: kínos összefonódás

Külön pikáns, hogy az OpenAI korábban megsértette az Anthropic feltételeit, amikor saját modelljei fejlesztésénél a Claude rendszert is bevonta, ezért az Anthropic rövid úton elzárta előlük az eszközeit. Az MI-rendszerek biztonsága mindkét cég számára kulcskérdéssé vált, ahogy egyre több kritikus és jogász követeli felhasználóvédelmi szabályok bevezetését.

2025, adrienne, www.engadget.com alapján

Share on Social Media