Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

Top
hétfő 16:50

Egyetemet végzett milliárdosok – ki mit végzett?

A közvéleményben gyakran keringenek olyan történetek, amelyek a felsőoktatásból kimaradó vállalkozókról szólnak...

MA 17:02

Az áttörés kulcsa: egyetlen atom indíthatja el a kvantuminternetet

A kvantuminternet megvalósítása évek óta foglalkoztatja a kutatókat, most viszont egy új felfedezés még közelebb viheti ezt a forradalmi technológiát...

MA 16:34

Az amerikai légiközlekedésben kitört a totális káosz

Az amerikai Közlekedési Minisztérium országos kampányt indított, hogy visszaszorítsa a repülőtereken és járatokon kirobbanó utasbalhékat...

MA 16:18

Az MI és Taylor Swift uralja a világot: a paraszociális kapcsolatok éve

👑 Első pillantásra úgy tűnhetett, hogy a közösségi média és az MI csevegőbotok csak új szintre emelték a rajongást, de a Cambridge Dictionary szerint mindez már saját szót is kapott: a „parasocial” lett 2025 szava...

MA 15:50

Az űrbéka, a rovarapokalipszis és a CDC totális káosza

Érdemes áttekinteni, milyen váratlan és olykor ijesztő fejlemények születtek a tudomány világában az elmúlt héten...

MA 15:33

Az esőerdők a vártnál ellenállóbbak a klímaváltozással szemben

🌳 Egzotikus tealevél-kísérletekkel vizsgálták, hogyan viselik a trópusi esőerdők a klímaváltozás hatásait...

MA 15:19

A rovarvilág összeomlik – veszélyben az élelmiszerünk?

Képzeld el, hogy nyáron autózol az országúton lehúzott ablakokkal, a szél fújja a hajad, és az élvezetes pillanatokat csak néha-néha zavarja meg egy-egy bogárnyom a szélvédőn...

MA 15:03

Az ünnepi MI-láz: idén ezek a legmenőbb kütyük

🎁 Az idei karácsony nemcsak az ajándékozásról, hanem a legújabb MI-eszközök versenyéről is szól...

MA 14:48

A perzsa metropolisz az ökológiai összeomlás szélén: Teherán fuldoklik

Teherán súlyos ökológiai válsággal néz szembe: a vízhiány és a környezeti károk már elviselhetetlenné váltak az ország szívében...

MA 14:33

Az ördög a részletekben: a törésvonalak meglepően gyors gyógyulása

A mélyben futó földrengéses törésvonalak sokkal gyorsabban regenerálódnak, mint eddig gondoltuk – akár néhány órán belül is visszanyerhetik eredeti szilárdságukat...

MA 14:17

Az újabb Salesforce-botrány: hackerek 200 céget törtek fel

Több mint 200 vállalat Salesforce-ban tárolt adatai kerültek hackerek kezébe, miután egy jelentős beszállítói láncot ért támadás során feltörték a Gainsight nevű ügyfélkapcsolati platformhoz kapcsolódó alkalmazásokat...

MA 14:02

A rejtélyes, elképesztően ritka pénisztuberkulózis nyomában

Egy 57 éves ír férfi különösen kellemetlen és ritka fertőzést kapott el: tuberkulózist a péniszén...

MA 13:49

Az anyja padlásán talált Superman-képregény minden idők legdrágábbja

Karácsonykor három testvér takarított elhunyt édesanyjuk kaliforniai padlásán, amikor régi, megsárgult újságok alatt elképesztő kincset találtak: a Superman első, 1939...

MA 13:17

Belülről buktatták le az amerikai CrowdStrike-ot

🕵 Az amerikai CrowdStrike kibervédelmi cég belső vizsgálat után kirúgott egy munkatársat, aki képernyőfotókat juttatott ki számítógépéről, amelyek végül a Telegramon, a Scattered Lapsus$ Hunters nevű hackercsoportnál kötöttek ki...

MA 13:02

Az első élő agyaras bálna: szenzáció Mexikó partjainál

Érdemes megvizsgálni, hogy milyen sokáig rejtve maradhatnak hatalmas tengeri élőlények az emberi tekintet elől...

MA 12:50

Az ultravékony kristályok forradalma: új korszak az optikában

🔬 A legújabb kutatások elképesztő előrelépést hoztak a kvantumtechnológia világában: ultravékony, kétdimenziós kristályokat nanoszintű mintázással olyan új optikai tulajdonságokkal ruháztak fel, amelyek eddig elérhetetlenek voltak...

MA 12:18

Az MI átírja az IT-üzemeltetést: az AIOps a cégek új fegyvere

Kezdetben a vállalati informatikai rendszerek működtetése és felügyelete rengeteg emberi beavatkozást, türelmet és egyhangú, monoton munkát igényelt...

MA 12:02

Az Epstein-levelezés már a Gmailben is kereshető

Az amerikai Kongresszus által nyilvánosságra hozott Jeffrey Epstein-levelezés most már egy szimulált Gmail-postafiókban is kereshető...

MA 11:36

Az olcsó porszívó, ami tényleg mindenkinek elég? Shark PowerPro teszt

A Shark PowerPro porszívó azoknak a háztartásoknak készült, ahol a tisztaság fontos, de nincs szükség felesleges extrákra vagy méregdrága csúcskategóriás modellekre...