Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

csütörtök 18:24

Penrose szám: A bizonyíték Isten létére?

Sir Roger Penrose brit matematikus és elméleti fizikus, aki a fekete lyukak szingularitásának és az általános relativitáselmélet új matematikai alapjainak feltárásáért kapott Nobel-díjat, az 1970-es években sokkoló, a tudományos világot megosztó tézist közölt...

MA 07:57

A figyelmetlen GitLab-fejlesztők titkai bárki kezébe kerülhettek

Több mint 17 000 jelszót, API-kulcsot és más bizalmas adatot találtak nyilvános GitLab-tárhelyeken, miután egy biztonsági mérnök letapogatta az összes, mintegy 5,6 millió elérhető repo­zitóriumot a szolgáltatásban...

MA 07:38

A dermesztő tél: így éld túl a maratonfelkészülést fagypont alatt

Nagy ötletnek tűnhet belevágni egy tavaszi maratonba – egészen addig, amíg rá nem ébredsz, hogy a leghosszabb edzéseidet a január–február mélypontján kell majd lenyomnod...

MA 07:29

Az igazi vezető nem a népszerűségre hajt

👑 Rengeteg főnök vágyik arra, hogy kedveljék a beosztottai, pedig ez nem teszi őket jobb vezetővé...

MA 07:23

A varázslat nyomában: Frieren Blu-ray-kiadások, amit tudni kell

🧙 Kezdetben a Frieren: Az utazás vége után (Frieren: Beyond Journey’s End) egyből magával ragadta a nézőket...

MA 07:15

Az őrült hullámvasúton száguld a Circle részvénye

🍞 A Circle Internet Group részvénye pénteken 10,9%-kal ugrott meg, miután a kriptopiac két hét folyamatos lejtmenet után végre magára talált...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 11/29

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Epica 2 Pro – monster camera (iPhone/iPad)A második generációs kameraalkalmazás új jeleneteket, pózokat és speciális effekteket kínál...

MA 07:10

Az óceánok szeméthalmaza: kellene a globális fellépés, mégis esélytelen?

Az emberiség tengerei és óceánjai előtt álló egyik legsúlyosabb környezeti probléma a tengeri hulladék: globális összefogás és egységes megfigyelőrendszer nélkül azonban szinte reménytelen a valódi előrelépés...

MA 07:01

Az eltűnt jelszógomb: megint bakizik a Windows 11 frissítése

A Microsoft figyelmeztetett, hogy a 2024 augusztusa óta kiadott Windows 11-frissítések hatására a jelszóval történő bejelentkezés ikonja eltűnhet a zárolási képernyőről, még akkor is, ha maga a funkció továbbra is elérhető marad...

MA 06:58

Az ünnepek előtt boltbezárások és leépítések a Krogernél

Az elmúlt években a vásárlók egyre inkább az online élelmiszerrendelést választják ahelyett, hogy személyesen járnának boltba...

MA 06:50

Az ausztrál repülőgépes Wi‑Fi-hackert végre lecsukták

🖨 Egy 44 éves ausztrál férfit hét év négy hónap börtönre ítéltek, miután bizonyítékot találtak arra, hogy repülőgépeken és ausztráliai reptereken működtetett hamis Wi‑Fi-hálózatokat, hogy utazók adatait ellopja...

MA 06:42

Az Oroszlánváros, Szingapúr uralja a globális tehetségversenyt

2025-ben történelmi átrendeződés zajlott a globális tehetségranglistán: Szingapúr először vette át az első helyet Svájctól, amely 2013 óta uralta a rangsort...

MA 06:36

Az újabb óriási adatlopás megrengeti a brit távközlést

🚧 A brit Brsk internetszolgáltató több mint 230 ezer ügyfél adatainak ellopását vizsgálja, miután egy kiberbűnözői fórumon ismeretlenek hirdetést tettek közzé a megszerzett adatokról...

MA 06:22

Az orosz űrállomás egyetlen indítóállása hónapokra megbénult

🚀 Oroszország bajba került: a Bajkonur űrközpont egyetlen olyan indítóállása, amely képes legénységet szállító űrhajót indítani a Nemzetközi Űrállomásra (ISS), súlyosan megrongálódott a legutóbbi Szojuz-indítás során...

MA 06:17

Az apró bakelit a jövő, vagy csak drága játék?

💿 A Tiny Vinyl nevű új, mindössze 10 centiméteres átmérőjű lemezformátum néhány hete jelent meg a boltokban...

MA 06:08

Az elképesztő grafén átírhatja az elektronika jövőjét

💡 A grafén, ez az egyetlen atomnyi vastagságú, szorosan egymáshoz kapcsolódó szénatomokból álló csodás anyag, újabb meglepetéssel szolgált...

MA 06:05

Történelmi események a mai napon (November 29.)

Időutazás a történelemben: a Zong rabszállító hajón elkövetett tömeggyilkosság, a japán Meidzsi-alkotmány életbe lépése, Richard E...

MA 06:01

A népszerű epilepszia-gyógyszer súlyosan árthat a magzatoknak

Egy 73 országot átfogó kutatás szerint egyre többen férnek hozzá epilepszia elleni gyógyszerekhez világszerte, ám a biztonságos felírási gyakorlat nem tart lépést a növekvő elérhetőséggel...

péntek 20:49

Az MI és a robotok fenekestül felforgatják a kínai gazdaságot

Kína tavaly 295 000 ipari robotot állított üzembe, többet, mint a világ többi része együttvéve...