Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.


Legfrissebb posztok

szombat 09:57

Az orosz télnél is halálosabb betegségek tizedelték meg Napóleon seregét

🔫 1812-ben Napóleon hatalmas sereggel – mintegy 500 000 katonával – rohanta meg Oroszországot...



MA 14:00

Az új Xbox: teljes Windows és ingyenes multiplayer mindenki számára

A Microsoft következő Xbox konzolja teljes értékű Windows rendszert futtat, így bármikor átválthatsz a hagyományos Xbox kezelőfelületről, és elérheted a Steamet, az Epic Games Store-t, a Battle...



MA 14:00

Bemutatták a DJI Romót, az átlátszó és meglepően okos porszívót

A DJI nevét a legtöbben a drónok és a menő kameratechnika kapcsán ismerik...



MA 13:30

Az igazi barátokra nem egy buli után találunk rá

👥 Az új élethelyzetekben – legyen szó költözésről vagy munkahelyváltásról – mindenki hallja a jó tanácsot: vegyél részt programokban, barátkozz!..

MA 13:00

Az Apple az útleveleket is digitalizálja – jönnek a digitális ID-k!

Az Apple hamarosan bővíti a Wallet alkalmazást: a felhasználók nemcsak bankkártyákat és jegyeket, hanem digitális útlevelet is tárolhatnak benne...



MA 12:30

Az MI-keresők meglepő forrásokat használnak

A generatív MI-alapú keresők eredményei gyakran egészen más oldalakat emelnek ki, mint a hagyományos keresők...

MA 12:03

A techóriások százmilliárdokat költenek az MI-őrületben

A világ legnagyobb technológiai vállalatai – a Microsoft, a Meta, az Alphabet (Google), az Amazon és az Apple – ezekben a napokban jelentik be negyedéves eredményeiket, amelyek fő fókuszában most a tőkeberuházások (capex) állnak...



MA 11:59

Újabb kamu Gmail-adatszivárgás: a Google cáfol

🔑 Újabb pánikhullám söpört végig az interneten, miután hírek jelentek meg arról, hogy állítólag 183 millió Gmail-fiók adatai kerültek illetéktelen kezekbe...

MA 11:30

Megállt a várható élettartam növekedése, szertefoszlik a 100 éves álom

🙁 A 20. század első felében a gazdag országok lakói történelmi léptékben tapasztalták az élettartam növekedését: egy 1900-ban született gyermek 62 évig élhetett, míg az 1938-ban születetteknél már 80 év volt az átlag...

MA 11:01

Az MI‑gyorsítók új királya: visszatér a Snapdragon a szerverekbe?

👑 A Qualcomm ismét belép a szerverek világába, ezúttal az MI‑inferenciára optimalizált gyorsítóival és titokzatos, előre összeszerelt rackszekrényeivel...



MA 10:58

Az internet mérése és átláthatósága, ami a felszín alatt zajlik

💻 Az internet alapjaiban meghatározza mindennapjainkat, ám kevesen tudják, milyen kutatómunka zajlik a színfalak mögött azért, hogy stabilabbá, átláthatóbbá és biztonságosabbá váljon...



MA 10:49

Az MI bedarálja a Chegg-et: tömeges leépítés és visszatérő vezér

Az online oktatási platform, a Chegg drasztikus lépést jelentett be: a dolgozók 45 százalékát, vagyis 388 embert elbocsátanak...

MA 10:42

Már 25 éve működik az ISS, minden pillanat egy oldalon

A Nemzetközi Űrállomás (ISS) fennállásának 25. évfordulója alkalmából két NASA-szoftvermérnök megalkotta azt az oldalt, amely minden korábbinál részletesebben mutatja be az emberiség folyamatos jelenlétét a világűrben...



MA 10:33

Olaj helyett mesterséges intelligencia, átalakul a szaúdi gazdaság

🧑‍🪕 Az első gondolat, ami Szaúd-Arábiáról eszünkbe jut, általában az olaj és az ebből származó hatalmas vagyon...



MA 10:25

Az MI-vel készült, hamisított számlák fejtörést okoznak a cégeknek

Az MI képgeneráló eszközei mára nemcsak művészi alkotásokat vagy vicces fotókat gyártanak, hanem valósághű hamis számlákat is...



MA 10:17

Az amerikai katonákhoz is eljut a Google 3D-s videócsevegése

A Google együttműködésre lép a United Service Organizationsszel (USO), hogy a bevetésen lévő amerikai katonák eddig nem látott módon tarthassák a kapcsolatot szeretteikkel...



MA 10:09

Az új pixelszenzáció: egy egész képernyő a gombostűfejen

🔭 Elképesztő áttörés született a nanotechnológiában: német fizikusoknak sikerült olyan apró OLED-pixelt létrehozniuk, amely mindössze 300 nanométeres oldalakkal rendelkezik, vagyis akár egy teljes 1080p-s (1920×1080) kijelző is ráférne egyetlen négyzetmilliméterre...

MA 09:56

Az Apple térképein hirdetések jelenhetnek meg hamarosan

Az Apple térképszolgáltatása új korszakba léphet, mivel a vállalat tervei szerint már jövőre megjelenhetnek rajta fizetett hirdetések...



MA 09:49

Az olasz kémprogram újra támad: veszélyben a Chrome-felhasználók

Idén márciusban orosz szervezeteket – köztük médiumokat, egyetemeket, kutatóközpontokat, kormányzati hivatalokat és pénzügyi intézményeket – célzott meg egy kifinomult adathalász-támadás, amely meghívót ígért a Primakov Readings (Primakov-konferenciára) fórumra...