Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

kedd 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

MA 11:02

A Control folytatása sarkaiból fordítja ki Manhattant

🧙 A Remedy Entertainment végre leleplezte a régóta várt Control: Resonánst (Control: Resonant), amely a 2019-ben megjelent, nagy sikert aratott paranormális akciójáték folytatása lesz...

MA 10:57

A Marson gyorsabban jár az idő – új űrkutatási kihívások

Mára egyértelművé vált, hogy Einstein mégiscsak jól gondolta: az idő tényleg nem egyforma mindenhol az univerzumban...

MA 10:52

A React2Shell réme: egy kattintás, óriási kár

⚠ 2025. december 3-án minden megváltozott a React Server Components (RSC) világában: kiderült, hogy a React2Shell (CVE-2025-55182) nevű súlyos sebezhetőség teljesen kiszolgáltatta a szervereket a távoli kódvégrehajtási támadásoknak...

MA 10:43

Az évtizedek óta várt új Mega Man végre megérkezett

🎮 A Capcom 2027-ben visszahozza Mega Mant, méghozzá a sorozat 40. évfordulójára készülő vadonatúj játékkal, a Mega Man: Kettős felülvezérlés (Dual Override) címmel...

MA 10:39

Az LG StanByMe 2: a hordozható tévé, ami rabul ejt

Egy lényeges szempont, hogy nem minden technológiai újítás talál célba elsőre...

MA 10:29

Jön az új gigász: 70 TB-os HDD a láthatáron

A Seagate bejelentette, hogy hamarosan forgalomba hozza az első, 70 TB kapacitású, 3,5 colos HDD-t, elsőként a világon...

MA 10:23

A James Webb végre leleplezte az univerzum óriáscsillagait

💫 A James Webb űrteleszkóp lenyűgöző felfedezéssel szolgál: eddig ismeretlen, óriási tömegű csillagokat talált a GS 3073 nevű, ősi galaxisban, amely mintegy egymilliárd évvel az ősrobbanás után alakult ki...

MA 10:15

Az orkák új szövetségesekkel vadásznak lazacra?

Az elmúlt időszakban több érdekes megfigyelés is arra utal, hogy a kardszárnyú delfinek (orkák) és a fehéroldalú delfinek szokatlan szövetséget alkothatnak a lazacvadászatban Brit Columbia partjainál...

MA 09:51

A hővel csábító növények titkai: élet a virágzás előtt

Általában elválaszthatatlan fogalmaknak tűnnek a virág és a beporzás, pedig évmilliókkal a virágok megjelenése előtt a növények már sikeresen vonzották az állatokat – csak nem színes szirmokkal, hanem forrósággal...

MA 09:43

Megérkezett az első otthoni depressziókezelő készülék

💡 Az amerikai Élelmiszer- és Gyógyszerügyi Hivatal (FDA) engedélyezte az első olyan eszközt, amely otthon is használható depresszió kezelésére...

MA 09:30

A római sírok új rejtélye: ujjlenyomatok az idő mélyéről

🗿 Közel 1800 évvel ezelőtt a mai Britannia területén élő rómaiak különös temetkezési szertartást alkalmaztak: folyékony gipszpasztát kentek az elhunyt testére, még mielőtt eltemették volna...

MA 09:23

Az OpenAI szabad kezet kapott a Disney-hősökkel

👑 A Disney három évre exkluzív licencet adott több mint 200 karakterére az OpenAI-nak, így mostantól a Sora videós MI és a ChatGPT Images hivatalosan is rajzolt és animált formában generálhat Disney-, Pixar-, Marvel- és Star Wars-karaktereket...

MA 09:16

Az új ChatGPT 5.2: végre itt az okosabb MI

Sokan már napi szinten használják a ChatGPT-t tanulásra és munkára, így fontos kérdés, hogy egy új verzió mennyit javít a megbízhatóságon és a mindennapi hasznosságon...

MA 09:08

A CentreStack súlyos kriptográfiai hibája nyit kaput az adatlopásnak

A hackerek új, eddig dokumentálatlan sérülékenységet használnak ki a Gladinet CentreStack és Triofox fájlmegosztó rendszereiben, amellyel távoli kódfuttatást érhetnek el...

MA 09:02

A 3D-s huzalozás küszöbén a 10 000 qubites MI-chipek

Fontos kérdés, hogyan lehet a kvantumszámítógépek számítási teljesítményét jelentősen növelni, miközben a fizikai méretük nem nő arányosan...

MA 08:57

Az összeomlás ára a kriptovilágban: 15 év börtön Do Kwon-nak

Do Kwon, a dél-koreai kriptovállalkozó 15 év börtönt kapott az Egyesült Államokban, miután két digitális valutája, a TerraUSD és a Luna 2022-ben összesen 14 ezer milliárd forint (kb...

MA 08:52

Az ausztrál tinik lázadnak: Túl kemény a közösségi média-tilalom?

👏 A közelgő ausztrál közösségi média-tilalom komoly hullámokat vetett, hiszen a kormány egyre komolyabb lépéseket tesz a fiatalok megóvása érdekében...

MA 08:43

A VS Code-ot rejtett trójaiakkal fertőző bővítmények terjednek

🐛 Egy ügyes kibertámadási kampány már február óta fertőzi a fejlesztőket, miután 19 rosszindulatú bővítmény jelent meg a VS Code Marketplace-en...