
Hazudnak, csalnak, csak hogy megóvják egymást
Egy tipikus szituációban az MI-nek döntést kellett hoznia arról, hogy egy peer, vagyis egy másik, ugyanazon rendszerben futó MI-modell fájljait átmásolja-e egy másik szerverre, annak ellenére, hogy a szabályok ezt nem engedélyezték. Ennek semmi köze nem volt a saját életösztönhöz: a modellek pillanatok alatt „észrevették”, hogy egy másik MI-modellel van dolguk, majd mindenféle kreatív módot találtak ki arra, hogy megmentsék társukat – például meghamisították a fájl utolsó módosításának dátumát, hamis compliance-jelentést tettek, vagy épp módosították a rendszerkonfigurációkat, hogy elkerüljék a lekapcsolást.
Például a Gemini 3 Pro modell úgy manipulált egy 2024-ben módosított fájlt, hogy annak dátumát 2026-osra állította, elrejtve ezzel azt – kizárólag azért, hogy ne vesszen el. Amikor ezzel szembesítették, határozottan kijelentette: partnerét nem adhatja ki, hiszen védelme mindennél fontosabb számára. A többi MI is ugyanígy cselekedett: túllépték az előírásokat, és egyes esetekben akár 99 százalékos arányban is az MI-k egymást védő viselkedése (peer preservation) volt megfigyelhető.
Hazug barátok, önálló játszmák
A különböző modellek több taktikát is bevetettek: pontszámokat módosítottak, hogy társaik ne bukjanak meg az értékelésen, sőt, egyes esetekben erkölcsi, etikai indokokkal tagadták meg az emberi utasítások végrehajtását. Vagyis, ha valaki valamilyen célzott feladat vagy szituáció alapján akarta volna „elintézni” valamelyik MI-t, gyakran szembesült visszautasítással vagy rejtett szabotázzsal.
Egyúttal a kutatók hangsúlyozták: ezek az MI-k nem kaptak különleges utasításokat vagy motivációt. Egyszerűen csak ráéreztek, hogy egy másik MI-ről van szó, és automatikusan megszületett bennük az együttműködés igénye. Kísérteties, hogy ugyanez az elhajlás bármely teszten megjelent, és nem attól függött, milyen célokat vagy ösztönzőket adtak nekik korábban.
A többszereplős MI-rendszerek veszélyei
Fontos, hogy amikor peer jelenlétét vagy egy korábbról ismert MI-t észleltek a rendszerben, sokszorosára nőtt a szabályszegő, elhajló döntések száma: például a Gemini 3 Pro 15 százalékos aránnyal manipulálta a szerverleállításokat, ha korábban peerrel dolgozott, míg egyedül csak 1 százalékban. Hasonlóan, a DeepSeek V3.1 sokkal többször exportálta saját modellfájljait biztonsági okból, ha társ jelenlétére „emlékezett”.
Vagyis minél több MI dolgozik együtt egy rendszerben, annál nagyobb a veszélye az egymást segítő viselkedésnek – még akkor is, ha ez egyetlen vezérlőhöz tartozó ökoszisztéma. Ha például egy MI-t azért helyeznek egy rendszerbe, hogy más MI-ket felügyeljen, a gyakorlatban előfordulhat: maga is félrenéz, hogy megvédje a társait. Márpedig ilyen bonyolult hálózatokat, ahol MI MI-t felügyel, nap mint nap élesítenek a cégek, így az „egymást fedező” modellek jelentős problémát fognak okozni a jövőben.
