Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 11:01

Az éhínség és egy vulkánkitörés lökhette útjára a Fekete Halált

💀 A Fekete Halál, amely 1347 és 1353 között söpört végig Európán, több helyen a lakosság akár 60%-át is elpusztította, de máig rejtély, hogyan tudott ilyen gyorsan terjedni...

MA 10:57

A szupernóvák írják át az élet eredettörténetét

Ki gondolta volna, hogy egy brutális csillagrobbanás új fényt vet az élet építőköveire?..

MA 10:51

Az Apache Tika végzetes hibája új kibertámadási hullámot indít

Érdekes felvetés, hogy még a legnagyobb technológiai óriásokat is bármikor váratlanul érheti egy súlyos biztonsági rés...

MA 10:44

Az ingatlanpiac csatája: hol diktálnak az eladók, hol a vevők?

🏡 A Zillow szakértői a Market Heat Index nevű modellel elemzik az ingatlanpiacokat: az árak változását, a kínálatot és az eladási időt összesítve pontszámmal jelzik, hogy az adott városban inkább eladói vagy vevői piac uralkodik...

MA 10:32

Az új Doogee S200 Ultra: páncélozott mobil, borsos árcédulával

A Doogee idén újabb ütésálló telefonját dobta piacra, az S200 Ultra modellt, amely szinte minden szempontból erős ajánlat lenne – ha nem lenne ilyen drága...

MA 10:15

Az MI csak akkor jó, ha emberibbé tesz minket

🧑 Az emberek gyakran úgy gondolnak az MI-re, mintha sorsdöntő összecsapás lenne ember és gép között, ahogyan a Terminátorban (The Terminator) látjuk a Skynet példáján...

MA 10:02

A fokhagymás szájvíz lehet a következő természetes csodafegyver?

A fokhagymáról régóta köztudott, hogy hatékony természetes fertőtlenítő, de most a Sharjah Egyetem kutatói bebizonyították: a fokhagymakivonatot tartalmazó szájvíz meglepően erős baktériumölő hatást fejt ki...

MA 09:50

Az X visszavág: lekapcsolták az Európai Bizottság hirdetési fiókját

Az X letiltotta az Európai Bizottság hirdetési fiókját, miután a platformra 120 millió eurós (kb...

MA 09:37

A hernyóbábok kígyóként sziszegnek, hogy elriasszák a ragadozókat

A bábban fejlődő lepkék sem maradnak védtelenek: a Phyllosphingia dissimilis nevű szenderfaj lárvái és bábjai a kígyók sziszegésére emlékeztető hangokat adnak ki, ha veszélyben érzik magukat...

MA 09:23

Az év szavai: Tényleg szemétgyár lett az internet?

🗑 Honnan tudjuk, hogy mi jellemzi leginkább 2025-öt? A világ nagy szótárai – köztük az Oxford és a Macquarie – minden évben kiválasztják az év szavát, így adva hangulatjelentést a jelenről...

MA 09:15

Az Atlanti-óceán hidegfoltjának titka: kulcs a klímaváltozáshoz

🌊 Jellemző példa erre, hogy több mint egy évszázada tartja lázban a tudósokat az a szokatlanul hidegfolt, amely Grönlandtól délre található az Atlanti-óceánban, miközben a tágabb térség vizei folyamatosan melegszenek...

MA 09:09

Az év végi tőzsdei hajrába most érdemes beszállni?

📈 Érdemes megvizsgálni, hogy valóban jó ötlet-e még az újév előtt részvényeket vásárolni vagy inkább kivárni...

MA 09:02

Az Intel Xeon 6 új korszakot nyit a peremhálózati MI-ben

⚡ Az OCP 2025 konferencián meglepően kevés szó esett arról a bemutatóról, ahol az Intel élőben demonstrálta, mire képes a Xeon 6 SoC – méghozzá a Dell PowerEdge XR8720t szerverben...

MA 08:43

A jóindulatú hekkerek végre védelmet kapnak Portugáliában

Portugália jelentősen átalakította a kibertörvényét, hogy biztonságos jogi hátteret teremtsen a jóhiszemű biztonsági kutatóknak...

MA 08:37

Az ember nem a modern világra termett

A mai, városi életmód súlyos biológiai kihívások elé állítja az embert, amelyekre evolúciónk során nem készülhettünk fel...

MA 08:30

Azok a kézmozdulatok, amelyektől azonnal magabiztosabbnak látszol

💪 Sokan csak arra készülnek fel, mit fognak mondani egy prezentáció, pitch vagy megbeszélés során, de azon kevesen gondolkodnak, hogyan mozgatják közben a kezüket...

MA 08:22

Az OpenAI cáfolja: nincs reklám a ChatGPT Plusban

A napokban több ChatGPT Plus-felhasználó észrevette, hogy egy egyszerű informatikai kérdésre adott válaszában az MI váratlanul vásárlási ajánlást is megjelenített: például azt javasolta, hogy a Targetben érdemes élelmiszert venni...

MA 08:15

Az OpenAI tagadja: nem lesznek hirdetések a ChatGPT-ben

Az elmúlt napokban többen találtak olyan képernyőfotókat az interneten, amelyek szerint hirdetések jelentek meg a ChatGPT-ben...

MA 08:09

Az ujjbegyszúrásnak hamarosan vége: jön a szúrásmentes vércukormérés

Fontos kérdés, hogy mikor szabadulhatnak meg a diabétesszel élők a mindennapi ujjbegyszúrástól...