Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

vasárnap 00:01

Az okos varjak, akik megtisztítják a városainkat

🦉 A varjak mindig is különleges madarak voltak. Számtalan történet szól arról, hogy képesek megbarátkozni emberekkel, ajándékokat hoznak, sőt, olykor elveszett tárgyakat is visszaszolgáltatnak gazdáiknak...

Top
hétfő 16:50

Egyetemet végzett milliárdosok – ki mit végzett?

A közvéleményben gyakran keringenek olyan történetek, amelyek a felsőoktatásból kimaradó vállalkozókról szólnak...

MA 09:02

Az Apple trónfosztása: két MI-óriás veszi át a hatalmat?

Kezdetben az Apple részvényei kiemelkedően teljesítettek, a vállalat piaci értéke mostanra 4 billió dollárt (kb...

MA 08:57

A rejtélyes svéd fémtömb, amely átírta egy korszak történetét

Érdemes megvizsgálni, hogy néha egyetlen lelet is képes átrendezni a történelemről alkotott képünket...

MA 08:50

Az új Broadcom PCIe Gen6-os switch már élesben a Dellnél

💻 A Broadcom az SC25 rendezvényen mutatta be legújabb PCIe Gen6 technológiáját, a PEX90144-es váltót, amely 144 sávos (72 portos) architektúrával rendelkezik...

MA 08:43

Az X új funkciója elszabadította a totális káoszt

💥 Az X közösségi oldalon bevezették az új Erről a fiókról (About This Account) funkciót, amely azt mutatja meg, hogy egy fiókot melyik országban hoztak létre, és melyik országban található – ami nem azonos azzal, ahonnan bejelentkeznek...

MA 08:22

A tartós barátság kulcsa: ezt tanítják a papagájok

🐦 Noha az emberek gyakran gondolják, hogy az állatok barátkozása ösztönös, a barátságok kialakítása a madarak számára is ugyanolyan bizonytalan, mint számunkra...

MA 07:57

Az ősi szomszéd: a Hold egy közeli bolygótestből született?

Az általánosan elfogadott elmélet szerint a Hold a Föld és a Theia nevű, bolygónyi méretű test óriási ütközése során keletkezett...

MA 07:52

Az új Passwork 7: az egységes vállalati jelszókezelés titkos aduásza

Felmerül a kérdés, hogy miként tudják a szervezetek biztonságosan kezelni a különböző csapatok, alkalmazások és infrastruktúra által használt jelszavakat, API-kulcsokat, tanúsítványokat és tokeneket, amikor mindegyik eltérő hozzáférési szabályokat és védelmet igényel...

MA 07:46

Az MI-háború: az OpenAI kitörése a Google árnyékából

🛡 Különösen említést érdemel, hogy a Google legújabb MI-modellje, a Gemini 3 alapvetően átrendezi az MI-piac erőviszonyait, és egyre kényelmetlenebb helyzetbe hozza a korábban mindenható OpenAI-t...

MA 07:36

A YouTube tarol: az amerikai felnőttek Instánál és TikToknál népszerűbb

Ma már elképzelhetetlen az élet közösségi oldalak nélkül, de vajon melyik a legnépszerűbb platform az Egyesült Államokban?..

MA 07:29

Az X-et ellepték a külföldi trollok

Az X új „About This Account” funkciója váratlanul rávilágított arra, milyen sok a külföldi troll az amerikai politikai vitákban...

MA 07:22

Az áttörés: már Pixelről iPhone-ra is megy a fájlmegosztás

📎 A Google végre elérhetővé tette a fájlmegosztást Pixel és iPhone készülékek között, integrálva az Android Quick Share rendszerét az Apple AirDrop megoldásával...

MA 07:15

Az Iberia utasainak adatai is kiszivárogtak – egy alvállalkozó hibázott

🔒 Spanyolország legnagyobb légitársasága, az Iberia bejelentette, hogy egy beszállítója biztonsági hibája miatt egyes ügyféladatai kiszivárogtak...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 11/24

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     PiP – Picture in Picture (iPhone/iPad)A PiP – Picture in Picture funkció lehetővé teszi, hogy a Youtube vagy Safari alkalmazásból játszott videók egy kisebb ablakban jelenjenek meg a képernyőn, miközben más alkalmazásokat is használsz...

MA 07:09

Eljött a JPEG XL kora: a Google végre beadja a derekát

Három évvel ezelőtt a Google kivette a JPEG XL formátum támogatását a Chromium böngészőmotorból, mondván, hogy nem volt elég érdeklődés iránta...

MA 07:02

Az eltűnt milliárdok nyomában: a Napster legnagyobb átverése

November 20-án online részvényesi értekezletet tartott a Napster, ahol nagyjából 700 jelenlévő – köztük alkalmazottak, volt dolgozók és kisbefektetők – szembesült a döbbenetes hírrel: John Acunto vezérigazgató bejelentette, hogy az a titokzatos, soha meg nem nevezett nagybefektető, akiről a cég januárban azt állította, hogy 1 180 milliárd forintot (kb...

MA 06:57

Az igazság pillanata: a Roblox és a gyerekvédelem tétje

💸 A Roblox vezérigazgatója, Dave Baszucki egy interjúban igyekezett bemutatni a játékplatform új biztonsági megoldását, amely minden felhasználót arcfelismerésre kötelezne, ha az üzenetküldési funkciókat használni kíván...

MA 06:51

Az eltitkolt Meta-kutatás: miért robbant ekkorát a botrány?

🕵 Érdemes megvizsgálni, hogy a Meta belső kutatása szerint azok, akik egy időre megszüntették a Facebook és az Instagram használatát, kevésbé érezték magukat depressziósnak és szorongónak...