Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.


Legfrissebb posztok

Az ibériai kardszárnyú delfinek újra hajókat támadnak – de miért?

szerda 23:52

Az ibériai kardszárnyú delfinek újra hajókat támadnak – de miért?

🐳 Tovább fokozódik a hajósok félelme a spanyol partoknál, ahol az ibériai kardszárnyú delfinek – vagyis orkáknak is nevezik őket – ismét hajókat támadnak meg, meghibásodott kormányokkal és rémült...

A régi Apple órákra is megérkeznek a legújabb egészségügyi funkciók

szerda 23:26

A régi Apple órákra is megérkeznek a legújabb egészségügyi funkciók

Az Apple új egészségügyi fejlesztéseihez nem feltétlenül kell új órát vásárolnod: jövő héten, a watchOS 26 frissítéssel, már a Watch Series 9-től felfelé elérhető lesz a magas vérnyomás...

Az ingatlanpiac visszavág: sosem látott árcsökkenés 2012 óta

szerda 23:01

Az ingatlanpiac visszavág: sosem látott árcsökkenés 2012 óta

📊 Az elmúlt egy évben az ingatlanpiac erőviszonyai a vevők javára tolódtak: a kínálat nőtt, a kereslet csökkent, a vevők pedig egyre több helyen tudnak alkudni. Bár még mindig...

Az újabb Google Pixel mobil is forró krumpli lett

szerda 22:51

Az újabb Google Pixel mobil is forró krumpli lett

Számos Pixel 7 és Pixel 7 Pro tulajdonos panaszkodik akkumulátorproblémákra: az eszközökben található akkumulátor nemcsak túlmelegszik, hanem meg is duzzad, ami miatt a telefon háza elválik, sőt, robbanás-...

Kiderült, hogy tényleg van légköre a Trappist-1e bolygónak

szerda 22:28

Kiderült, hogy tényleg van légköre a Trappist-1e bolygónak

🔬 Negyvenegy fényévnyire egy vörös törpe körül kering egy kőzetbolygó, amelynek lehet légköre. A Trappist-1e bolygón végzett friss mérések először utalhatnak arra, hogy egy, a lakhatósági zónában található, Föld-méretű...

Az új Google-terv: Az MI vásárol helyetted, te csak nézd!

szerda 22:01

Az új Google-terv: Az MI vásárol helyetted, te csak nézd!

A Google bemutatta legújabb forradalmi ötletét: mostantól a mesterséges intelligencia ügynökök (MI-ügynökök) képesek lesznek helyetted vásárolni. Ehhez elkészült az Agent Payments Protocol (AP2) nevű rendszer is, amely állítólag...

iPhone 17, még a Pixel 10 is irigykedhet rá

szerda 21:51

iPhone 17, még a Pixel 10 is irigykedhet rá

📱 Az okostelefonok versenye továbbra is az állandó újításokról és utánzásokról szól: az Apple és a Google folyamatosan igyekszik lekörözni egymást, de még mindig vannak területek, ahol az iPhone...


szerda 21:25

Az eltűnt hód visszatért – most a holland gátak réme

A 19. század elején kihalt hódot 1988-ban telepítették vissza Hollandiába, azóta már több mint 7000 példány él az országban. A hódok azonban egyre nagyobb problémát okoznak: járataikat nemcsak...

Az Uber forradalmasítja a vendéglátóipari hiteleket

szerda 21:01

Az Uber forradalmasítja a vendéglátóipari hiteleket

Az Uber Eats és a pénzügyi technológiával foglalkozó Pipe új együttműködése teljesen átalakíthatja, hogyan jutnak finanszírozáshoz a kisvendéglők az Egyesült Államokban. A Pipe integrált technológiájának köszönhetően már az...