Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 20:50

A lenyűgöző égi csoda, amely vetekszik a Teremtés oszlopaival

💫 Lenyűgöző felvételt közölt a Gemini Obszervatórium fennállásának 25. évfordulóján: a fotón az NGC 6820 jelű emissziós köd és az NGC 6823 nyílt csillaghalmaz ragyog, mintha a híres Teremtés oszlopai (Pillars of Creation) párját látnánk...

MA 20:33

A legsúlyosabb ciklon csapott le: ezrek otthona dőlt romba, százak haltak meg

💧 A legsúlyosabb természeti katasztrófa rázta meg Sri Lankát, ahol heves ciklon pusztított; a hegyvidéki tartományokban még mindig földcsuszamlások és áradások fenyegetik a lakosságot...

MA 20:20

A monstrum Doogee V Max LR: telefon vagy szerszámosláda?

A Doogee V Max LR egészen új szintre emeli a strapatelefon fogalmát: nemcsak elképesztően masszív, de igazi energiabajnok is a 20500 mAh-s akkumulátorával...

MA 20:02

Az elveszett indián falvak előkerültek – tényleg igaza volt John Smithnek?

🌍 Emellett a Rappahannock folyó mentén, Virginiában végzett ásatások során végre sikerült azonosítani azokat az ősi indián falvakat, amelyeket a Jamestownból ismert John Smith több mint 400 éve említett...

MA 19:49

A Simogo új csomagja visszarepít az iPhone-játékok aranykorába

🎮 A mobiljátékok világában ma már ritkaságszámba mennek az igazán kreatív indie alkotások, de volt idő, amikor az App Store-nak köszönhetően a kis fejlesztőcsapatok is hatalmas közönséghez tudták eljuttatni ötleteiket...

MA 19:34

Az elveszett szavak nyomában: miért fordíthatatlan néha a nyelv?

Több nyelvet beszélve feltűnhet, hogy bizonyos szavakat egyszerűen képtelenség lefordítani. Egy japán tervező vágyódik a mono no aware iránt, amely egyfajta letisztult, időtlen szépség – angolul, sőt magyarul sincs rá igazán megfelelő szó...

MA 19:17

Az évszázad játéka visszatért – kezdődik a láz!

Az év vége felé közeledve senki sem unatkozik, hiszen a legendás játék, amely hosszú évek óta sokak toplistáján szerepel, most újra hódít...

MA 19:02

Az Amazon nagy fúziója az MI-szuperszerverekkel

Tipikus eset, amikor a technológiai verseny nem az egyediség felé visz, hanem a legjobb, működő mintát másolják a nagyok...

MA 18:51

Az olcsó boltok ára a szegények bőrére megy

Az Egyesült Államokban rengeteg család támaszkodik olyan bolthálózatokra, mint a Family Dollar vagy a Dollar General, hiszen ezek a boltok ígérik a legalacsonyabb árakat alapvető háztartási cikkekből...

MA 18:33

Az okosszemüveg, amely rémálommá vált: 13 év Google Glass után

Amikor a Google Glass 13 évvel ezelőtt megjelent, az egész világ álmodozni kezdett arról, milyen lesz, ha számítógép költözik az arcunkra...

MA 18:18

Az ABCC4 titkos hálózata: új trükk a sejtszabályozásban

Amikor egy sejt kívülről üzenetet kap, egy ciklikus AMP (cAMP) nevű molekulával közvetíti ezt a jelzést...

MA 17:50

Az újszülöttek B-hepatitisz oltása kikerülhet a kötelezőkből

Az Egyesült Államok járványügyi központjának (CDC) oltási tanácsadó bizottsága az eddigi gyakorlattól eltérően már nem javasolja egységesen, hogy minden újszülött kapjon hepatitis B elleni oltást születése után...

MA 16:49

Vége lehet Hollywood aranykorának az új Netflix–Warner Bros.-óriással?

🎥 Nehéz elhinni, de a Netflix és a Warner Bros. közötti friss felvásárlási megállapodás máris felforgatta a teljes hollywoodi piacot...

MA 16:34

A házi csodachip: több mint ezerszeres ugrás a garázslaborban

Fontos kérdés, hogy meddig juthat el egy lelkes egyetemista, ha házilag, garázsban barkácsolja össze saját integrált áramköreit...

MA 16:18

A pénzed turbója: egyszerű lépések a gyorsabb célokért

Rendszeres pénzügyi stressz: nem kell mindent túlbonyolítani A pénzügyek kezelése rengeteg ember számára jár állandó lelkiismeret-furdalással: folyamatosan azt sugallják, hogy a megtakarításon, a befektetésen és persze az adók optimalizálásán is dolgozni kell...

MA 16:04

Az Xgimi Horizon 20 Max: Luxusmozi és gamer élmény egy projektorban

Ebből következően érdemes megérteni, hogy a hordozható projektorok piacán is megjelentek a valódi prémium modellek...

MA 15:50

Az oroszországi aranyáldozatok rejtélye: 2400 éves kincs került elő

🏁 A dél-uráli Vysokaya Mogila sírmezőn egyedülálló, 2 400 éves áldozati komplexumot tártak fel orosz régészek, amely új fényt vet a nomádok temetkezési rítusaira...

MA 15:35

Az ingatlanpiac, amely még Warren Buffettet is szabályszegésre csábította

Érdekes felvetés, hogy még a legendás Warren Buffett is hajlandó volt felrúgni saját, kőbe vésett szabályait a mostani ingatlanpiaci körforgásban...

MA 15:04

Az óriás Doogee V Max Play: túlélőmobil vagy hordozható tégla?

A Doogee V Max Play nem aprózta el a strapatelefon fogalmát: ez a készülék méretével, tömegével és funkciókínálatával messze túlmutat a rutinos túrázók és kalandorok elvárásain...