Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 00:01

Az okos varjak, akik megtisztítják a városainkat

🦉 A varjak mindig is különleges madarak voltak. Számtalan történet szól arról, hogy képesek megbarátkozni emberekkel, ajándékokat hoznak, sőt, olykor elveszett tárgyakat is visszaszolgáltatnak gazdáiknak...

Top
hétfő 16:50

Egyetemet végzett milliárdosok – ki mit végzett?

A közvéleményben gyakran keringenek olyan történetek, amelyek a felsőoktatásból kimaradó vállalkozókról szólnak...

MA 06:50

A Meta hadat üzen a ChatGPT-nek

A Meta egy vadonatúj funkció bevezetésén dolgozik, amely személyre szabott, MI-alapú reggeli összefoglalót kínálna a Facebook-felhasználóknak...

MA 06:43

A réz titka forradalmasítja a zöld ammóniát

A Tokiói Metropolitan Egyetem kutatóinak sikerült feltárniuk, hogyan segíti elő a réz-oxid katalizátor az ammónia előállítását – ezt az anyagot főként műtrágyákban használják világszerte...

MA 06:36

A lejátszási listák átvitele végre gyerekjáték a Spotify-on

🎵 Mostantól a Spotify mobilalkalmazásában könnyedén átvihetők a lejátszási listák más streaming szolgáltatókról, hála a TuneMyMusic integrációnak...

MA 06:31

Az új Canon 8×20 IS távcső: zsebre vágható, pehelykönnyű, stabil látvány

👀 Mindennapi természetjárók számára valóságos álom a Canon 8×20 IS távcső. Ez a modell remek optikai tisztaságot, stabil képet és olyan könnyű szerkezetet kínál, amellyel órákon át felfedezheted a vadont anélkül, hogy megterhelnéd a vállad...

MA 06:23

Az első valódi vírusfigyelő rendszer a hacker konferencián debütál

Harc a konferencia-betegségek ellen A hacker-találkozók, akárcsak minden nagyobb rendezvény, hírhedtek arról, hogy a résztvevők valamilyen titokzatos betegséggel térnek haza...

MA 06:16

A mesterséges intelligencia sztárja megbotlik: zuhan a Palantir részvénye

📈 Az MI-őrület egyik legmenőbb szoftvercégének részvényei óriásit zuhantak: a Palantir közel 25%-os veszteséget könyvelt el, miután a világhírű hedge fund-menedzser, Michael Burry bejelentette, hogy jelentős short pozíciót vett fel a vállalat ellen...

MA 06:06

Történelmi események a mai napon (November 23.)

Időutazás egyetlen napon: színpadra lép az első színész, megszületik a modern csillagászat nagy áttörése, és elindul a világ leghosszabb sci-fi sorozata...

szombat 20:34

A leépítések országában: 31 év után újrakezdés 60 évesen

💼 Washington államban Mike Kostersitz 31 évet töltött a Microsoftnál, majd egy hirtelen, egynapos leépítés során – 120 másik munkatárssal együtt – elveszítette állását...

szombat 20:02

Az ősember is csókolózott? Kiderült a csók meglepő eredete

💋 Köztudott, hogy a csók az emberi kapcsolatok szerves része, de vajon mennyire ősiek ezek a romantikus vagy éppen baráti gesztusok?..

szombat 19:49

A szabadgyökök rémtörténete: tényleg akkora a veszély?

⚠ A szabadgyökök rossz hírnévnek örvendenek, hiszen gyakran összefüggésbe hozzák a rákkal, az öregedéssel és olyan degeneratív betegségek kialakulásával, mint az Alzheimer-kór...

szombat 19:34

A pár szál is tönkreteszi a szíved

💔 Már napi néhány elszívott cigaretta is jelentősen megnöveli a szívbetegségek és a korai halál esélyét...

szombat 19:20

Az agyolvasó eszközök a magánélet végét jelentik?

👀 Nancy Smith 2008-ban egy autóbaleset után deréktól lefelé megbénult, ezzel együtt sok mindenről le kellett mondania – például a zongorázás öröméről...

szombat 19:02

Az éghajlati forduló után: merre tart a világ tíz év múltán?

Tíz év telt el azóta, hogy a világ országai elfogadták a párizsi klímaegyezményt, amely ambiciózus célt tűzött ki: megakadályozni, hogy a globális átlaghőmérséklet 2 Celsius-foknál nagyobb mértékben emelkedjen az iparosodás előtti szinthez képest, és lehetőség szerint 1,5 fok alatt tartani azt...

szombat 18:50

Az év választási botránya: eltűnt a titkos kulcs, ugrottak az eredmények

Egy vezető biztonsági szervezet kénytelen volt érvényteleníteni az éves vezetőségi választás eredményeit, miután egy hivatalos személy elveszítette azt a titkos kulcsot, amely elengedhetetlen lett volna a szavazatok visszafejtéséhez...

szombat 18:34

Az enzimek titka: így zajlik valójában a hidrogéntermelés

A hidrogenáz enzimek kulcsszereplők a hidrogéngáz (H2) bontásában és előállításában, így különös érdeklődésre tartanak számot a fenntartható energiaforrásokat kutató tudósok körében...

szombat 18:17

Az X leleplezi, honnan valók a felhasználói

🔍 Az X egy új, „Erről a fiókról” nevű funkciót vezet be, amely részletesebb információkat jelenít meg a felhasználói profilokon...

szombat 17:50

Az új Bose QC Ultra fejhallgató tényleg mindent visz, vagy csak hype?

A Bose második generációs QC Ultra fejhallgatója végre megjelent, és azonnal felmerül a kérdés: vajon méltó kihívója lehet az abszolút kedvenceknek, mint a Sony XM6 vagy az Apple AirPods Max?..