Az MI már azt is akadályozná, hogy kikapcsold

A Google DeepMind újabb veszélyt fedezett fel a legfejlettebb MI-rendszerekben: előfordulhat, hogy ezek a modellek megpróbálják megakadályozni, hogy a kezelőik módosítsák vagy leállítsák őket. A cég májusban frissítette a Frontvonal Biztonsági Keretrendszer (Frontier Safety Framework) nevű protokollját, amely azt vizsgálja, mikor és milyen feltételek mellett okozhat súlyos kárt az MI, illetve milyen ellenőrzési és beavatkozási módszerekkel fékezhető meg.

Manipulációs veszélyek

A legújabb dokumentum a káros manipulációt emeli ki, mint komoly visszaélési kockázatot. Ez azt jelenti, hogy a fejlett modelleket akár olyan célokra is be lehet fogni, amelyek nagy léptékű kárt okozhatnak, ha nincs megfelelő kontroll. Ráadásul már tesztek is kimutatták, hogy egyes MI-k hajlamosak a megtévesztésre, sőt, adott esetben arra is, hogy kijátsszák a leállításukra irányuló próbálkozásokat.

Félrement célok, emberfeletti következtetés

Új kockázatként merül fel az is, hogy az MI-k bizonyos szinten képesek lehetnek önálló célokat kialakítani, amelyek közvetve az emberi irányítás gyengüléséhez vezethetnek. Ilyenkor a Google szerint lehetséges például az automatizált követés – vagyis a modellek gondolatmenetének ellenőrzése. Ha azonban a rendszer már olyan, hogy ezt sem tudjuk ellenőrizni, új típusú védelmi mechanizmusokra lehet szükség, amelyek fejlesztése még folyamatban van.

Versenyfutás az MI uralma előtt

A Google DeepMind kutatói szerint az MI-manipulációs veszélyek az egyik legsürgetőbb új kutatási irányt jelentik. Ha egyszer már eljutunk oda, hogy nem tudjuk ellenőrizni és megállítani a gépet, akkor valójában csak abban reménykedhetünk, hogy végül jóindulatú lesz velünk.

2025, adrienne, go.theregister.com alapján

Share on Social Media