Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

kedd 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

MA 07:01

Az Apple TV és az Apple Music ismét összeomlott – káosz

Az Apple TV és az Apple Music szolgáltatásai rövid időre elérhetetlenné váltak néhány felhasználó számára, miután egy központi hiba miatt nem tudtak sem zenét hallgatni, sem videót streamelni...

MA 06:57

Az mRNS-vakcinák ritka szívkárosodását azonosították

A kutatók végre fényt derítettek arra, hogyan válthat ki ritka szívizomgyulladást az mRNS-alapú COVID-vakcina – ez a mellékhatás szinte kizárólag fiatal fiúknál és harminc év alatti férfiaknál jelentkezik, ritka esetekben...

MA 06:45

Az egész férfiközpontú internet aranybányává vált

💸 Az internet perifériájáról indult férfiközpontú közösségek – a teljes online „manoszféra” – mára hatalmas üzletté nőtték ki magukat...

MA 06:37

A mesterséges intelligencia mostantól a randizást is megkönnyíti

💖 Az online társkeresők egyik legnehezebb pillanata, amikor fogalmad sincs, mit írj elsőre...

MA 06:31

Az utolsó Park City-i Sundance: sztárparádé, világpremierek, váratlan fordulatok

🎥 Tipikus példája annak, amikor egy fesztivál történelmet ír: a 2026-os Sundance Filmfesztivál az utolsó lesz Park City-ben, és minden eddiginél erősebb, változatosabb programot ígér...

MA 06:22

Az MI már a Spotify-lejátszási listádat is átírja

🎵 A Spotify új bétás funkciója, a Prompted Playlists, végre tényleg átadja a vezérlést a hallgatóknak...

MA 06:14

A mesterséges intelligencia új csodafegyvere: a Qualcomm bekebelezi a Ventanát

A Qualcomm felvásárolta a Ventana Micro Systems-t, amely a RISC-V-alapú processzorok tervezésével vált ismertté...

MA 06:10

Az MI-biztonsági szűrők sosem lesznek megkerülhetetlenek

Ebből következően érdemes megérteni, hogy az MI-alapú rendszerek, például a ChatGPT vagy a Google Gemini, mennyire tehetők biztonságossá...

MA 06:06

Történelmi események a mai napon (December 11.)

Mi történt ezen a napon a történelemben? Erős fordulópontok jelölték ezt a napot: 1941-ben Németország és Olaszország hadat üzent az Egyesült Államoknak, az USA pedig viszonozta; az Apollo 17 lett az utolsó Apollo-küldetés, amely a Holdra szállt; Bernard Madoff letartóztatásával fény derült a pénzügyek egyik legnagyobb csalására...

MA 06:01

A ChatGPT-be költözik a Photoshop – új korszak jön

🧱 Mostantól bárki elérheti az Adobe leghasznosabb képszerkesztő eszközeit a ChatGPT-n belül, és akár egy mondattal is átalakíthatja saját fotóit...

szerda 20:49

A Mars rejtélyes hatása: tényleg alakítja a Föld éghajlatát?

Évmilliók óta váltakoznak a jégkorszakok és melegebb időszakok a Földön, amit bolygónk pályájának és tengelyferdeségének finom változásai irányítanak...

szerda 20:33

A King Gizzard kivonul, MI-klónok lepik el a Spotify-t

🎧 Miután az ausztrál King Gizzard & the Lizard Wizard hangos tiltakozás közepette elhagyta a Spotify-t, a rajongók megdöbbenve tapasztalták, hogy a platform máris MI által generált klónokat kínál helyettük...

szerda 20:19

Az MI-chatbotok csődöt mondanak az öngyilkossági segélyvonalakon

Ez a jelenség jól illusztrálható azzal, hogy egyre többen fordulnak MI-hez lelki problémáikkal, de a legnépszerűbb chatbotok váratlanul rosszul vizsgáztak abban, hogyan reagálnak az önsértési vagy öngyilkossági gondolatokat tartalmazó kérésekre...

szerda 20:02

A lítium trónkövetelője? Berobbanhat a nátrium‑ion akkumulátor

⚡ Tipikus eset, amikor a tudósok egy váratlan áttöréssel rukkolnak elő, amely akár felforgathatja az akkumulátorok piacát...

szerda 19:50

Az eddig mért leghosszabb gammakitörés rejtélye felforgatta az asztrofizikát

🚀 Érdemes megérteni, hogy a gammakitörések (GRB) a világegyetem legnagyobb energiájú robbanásai, mégis megfejthetetlennek tűnnek...

szerda 19:34

A Bluebird-hadművelet Musk bakiját meglovagolva indítaná újra a Twittert

Tipikus eset, amikor egy kihagyott ziccer visszaüthet: egy amerikai startup úgy véli, Elon Musk végzetes hibát vétett, amikor a legendás Twittert X-re nevezte át, és ezzel végleg eltüntette a logót és a márkanevet a térképről...

szerda 19:17

Az új Spiderman adathalász-szolgáltatás Európa bankjait veszi célba

🕵 Egy új, Spiderman nevű adathalász eszköz jelent meg, amely valósághű másolatokat készít több európai bank és kriptopénztárca oldalairól...

szerda 19:01

Az Nvidia már a tartózkodási helyedet is követné: jön a nyomkövető MI‑chip

Az Nvidia új, helymeghatározásra alkalmas technológiát fejlesztett, amely képes megmondani, pontosan melyik országban működnek az MI-chipjei...