Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 09:44

Az emberformájú robotok kora még távoli – vagy már a küszöbön?

Felmerül a kérdés, hogy valóban ugrásra készen állnak-e az emberformájú robotok, vagy még csak a látványosság kedvéért jelennek meg kiállításokon és bemutatókon...

MA 09:37

Az agy nagytakarítása: kevesebb epilepsziás roham, jobb memória

Az epilepszia egyik leggyakoribb és legnehezebben kezelhető típusa a temporális lebeny epilepszia (TLE), amely nemcsak ismétlődő rohamokat okoz, hanem a memóriát és a gondolkodást is megzavarhatja...

MA 09:28

A 7 milliós Apple appfejlesztő kurzus tényleg megéri?

Az Apple Detroitban indított fejlesztőakadémiája 2021 óta képzi azokat, akik iPhone-alkalmazásokat szeretnének fejleszteni – de a siker nem mindenkinél jön magától...

MA 09:22

Az egérbél titkos fegyvere: baktérium, ami leállítja a hízást

A bélrendszerünkben élő baktériumok és gombák szoros kapcsolatban állnak az egészségi állapotunkkal, különösen a testsúllyal...

MA 09:15

Az Intel botladozik: kihátrál az Nvidia, szakad az árfolyam

📈 Az Intel részvényei újabb mélypontra estek, miután kiderült, hogy az Nvidia végül mégsem gyártatja a chipjeit az Intel legújabb, 18A gyártástechnológiájával...

MA 09:09

A rejtett vízkészlet, amely átsegítette a Földet a poklon

Nagyjából 4,6 milliárd évvel ezelőtt a Föld egyáltalán nem hasonlított mai, nyugodt, kék bolygónkra...

MA 09:02

A lottómilliárd lehet átok: így ne ússzon el mindened

🎰 Mindenki álmodozott már arról, hogy megnyeri a lottót, de kevesen gondolnak bele, milyen nehézségekkel járhat a dollármilliárdos nyeremény...

MA 08:58

A mesterséges intelligencia igazi ereje: Kanada csak matematikai befektetéssel lehet világelső

🧠 Ebből következően érdemes megérteni, mitől válhat Kanada valóban globális MI-nagyhatalommá. Az MI ma már mindenhol jelen van: a legtöbbünk zsebében több MI-alkalmazás is fut egyszerre, akkor is, ha nem mindig vesszük ezt észre...

MA 08:50

Az univerzum hajnalának szupernóváját kapta lencsevégre a James Webb

Egy nemzetközi csillagászcsoport a James Webb-űrtávcsővel (JWST) először vizsgálta közvetlenül a korai világegyetemet, amikor egy soha nem látott távolságban észleltek egy szupernóvát, vagyis egy hatalmas csillag látványos halálát...

MA 08:43

A zsebméretű erőmű: az Acemagic meghökkentő mini PC-je

Az Acemagic új mini PC-je, a Tank M1A Pro+, első ránézésre is merész dizájnja miatt tűnik ki – nem véletlenül becézik ezüst démonnak...

MA 08:36

Az unalmas befektetés aranyat ér: ezért imádják a VTI-t

Egy meglepően stabil portfólióhoz nem feltétlenül kellenek forradalmi ötletek vagy drága sztárrészvények; elég lehet egy szélesen diverzifikált, olcsó tőzsdén kereskedett alap (ETF), például a Vanguard Total Stock Market ETF (VTI)...

MA 08:30

Az ingyenes szoftverek nagy titka: nem kell hozzá Linux

💡 Különösen igaz ez akkor, ha régi Windows vagy macOS gépeden keresel friss, használható alkalmazásokat, de nem akarsz átállni Linuxra...

MA 08:22

Az eltűntnek hitt hal visszatért – bolíviai szenzáció

Húsz év elteltével újra előbukkant a Moema claudiae, az apró, szezonális ölőhal, amelyet már régóta kihaltnak tartottak Bolíviában...

MA 08:14

A Gmail nagy dobása: végre megváltoztathatod az e‑mail-címedet

A Google újabb lehetőséget készül biztosítani a Gmail-felhasználóknak: hamarosan bárki megváltoztathatja a @gmail...

MA 08:08

Az OpenAI új szintre emelte a ChatGPT-t: megérkeztek a szerkesztői trükkök

A ChatGPT felülete frissítést kapott, amely megkönnyíti a különféle feladatok elvégzését...

MA 08:02

Az utolsó dodo-rokon nyomai Szamoa esőerdejében kerültek elő

🐧 Fontos kérdés, hogy megmenthető-e a manumea, amely a világ egyik legritkább madara, és talán az utolsó élő rokona a már kihalt dodónak...

MA 07:58

A MiniMax M2.1: az MI-fejlesztés következő nagy dobása

Külön említést érdemel, hogy a MiniMax M2.1 jelentős előrelépést hoz a többnyelvű programozásban és a valódi, összetett feladatokra szánt MI-alapú megoldásokban...

MA 07:50

Az MI és egy spanyol vírus nyomán lett Málaga a Google fővárosa

🌎 Harminchárom év telt el, mire Bernardo Quintero rászánta magát, hogy felkutassa azt a titokzatos programozót, aki egy ártalmatlan, ám meghatározó számítógépes vírussal megfertőzte az egyetemét...

MA 07:46

Az AMD Strix Halo és az Nvidia DGX Spark párbaja: ki nyer?

💥 A mesterséges intelligencián alapuló munkaállomások világa robbanásszerűen fejlődik, és most a figyelem két kompakt, mégis eltérő stratégiát képviselő újdonságra irányul: az AMD Strix Halo és az Nvidia DGX Spark...