Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

hétfő 21:00

Az Instagram felrobbant: Kylie Jenner ismét bikiniben pózol

A hétfői rosszkedvre itt a tökéletes ellenszer: Kylie Jenner újabb bikinis szelfivel lepte meg követőit, és elképesztően néz ki...

MA 11:33

A jövő megérkezett: Mexikóé Latin-Amerika legerősebb szuperszámítógépe

Mexikó nagyszabású tervvel állt elő: 2026-ban elkezdik építeni a Coatlicue névre keresztelt szuperszámítógépüket, amely a kontinens legnagyobb számítási teljesítményével rendelkezik majd...

MA 11:17

Az ősi maja városok bukását nem csak az aszály okozta

A friss kutatások szerint a maja civilizáció hanyatlása nem egyszerűen az aszály következménye volt: éghajlatváltozás, belső konfliktusok és a mezőgazdasági forradalmak együtt alakították a városok felemelkedését és visszaesését...

MA 11:01

Az újabb Mixpanel-botrány: smishing-támadás veszélyeztette a felhasználói adatokat

November 8-án komoly smishingtámadás érte a Mixpanel rendszerét, ezért azonnali intézkedéseket vezettek be az ügyfelek adatainak védelmében...

MA 10:57

Az EU kétsebességes üzemmódban halad a fenntarthatóság felé

🛠 Az Európai Unió országai nem egyenletes ütemben haladnak a Fenntartható Fejlődési Célok (SDG) elérésében...

MA 10:51

Az MI ára: béke vagy totális megfigyelés?

Sam Altman, az OpenAI vezetője új MI-eszközt álmodott meg, amely szerinte a telefonok és alkalmazások káoszának ellenpontja lesz...

MA 10:44

A Stranger Things utolsó évada őrült tempóban rajtol

Egy lényeges szempont, hogy tíz év telt el azóta, hogy a Különös dolgok (Stranger Things) berobbant a köztudatba, és a Duffer testvéreknek bőven volt idejük megálmodni a sorozat méltó lezárását...

MA 10:37

Az MI és az emberiesség párharca: erre képes a Retrace the Light

🤖 Ebből következően érdemes megérteni, mire képes egy új sci-fi akció-szerepjáték, ha az MI-t állítja cselekménye középpontjába...

MA 10:30

Az óriáscégek milliókat mozgósítanak Hongkong legsúlyosabb tűzvésze után

Több mint ötvenen vesztették életüket Hongkongban, amikor egy lakótelepen pusztító tűz csapott fel...

MA 10:15

A Pokémon Go Tour Kalosba repít – jön a nagy kaland

🏃 2026-ban a Pokémon Go játékosai a Kalos régióban kalandozhatnak, ahol eddig sosem látott meglepetések várnak...

MA 09:57

A norvégok új szuperszámítógépe meleg vízben fürdeti a lazacokat

Norvégiában befejezték az ország legnagyobb teljesítményű szuperszámítógépének, az Oliviának az építését, amely nemcsak a tudományos kutatást lendíti fel, hanem a helyi lazacfarmok vizét is fűti majd...

MA 09:43

Az EU rákényszeríti a Google-t: jön az AirDrop-támogatás

A Google nemrégiben bejelentette, hogy a Pixel 10 mobilokon bevezeti az AirDrop-szerű fájlmegosztás támogatását – ezúttal úgy, hogy ehhez nincs szükség az Apple együttműködésére...

MA 09:36

Az új ShadowV2 botnet az AWS-leállást lovagolta meg

Egy új, Mirai-alapú botnet, a ShadowV2 most először tűnt fel, és főként a D-Link, a TP-Link, valamint más gyártók sebezhető IoT-eszközeit támadta meg...

MA 09:30

Az olcsó kínai MI-lázba dől a külföldi tőke

📈 A kínai MI- és robotikacégek újabban a globális befektetők kedvencei lettek...

MA 09:23

Az immunrendszer kijátszható: egereken meggyógyították az 1-es típusú diabéteszt

Tipikus eset, amikor egy kitartó kutatócsoport egy aprósággal írhatja át a gyógyítás szabályait...

MA 09:16

Az ősi lábnyomok bizonyítják: Lucy mellett egy ismeretlen rokon élt

👣 Megvizsgálják, hogy a 15 évvel ezelőtt Etiópiában talált, megkövesedett lábfej valójában egy rejtélyes emberi rokonhoz tartozik-e, aki egy időben élt a híres Lucyval...

MA 09:08

A Stranger Things új évadától összeomlott a Netflix

A Netflix nézői rövid kimaradást tapasztaltak szerda este, amikor a szolgáltató elindította a régóta várt A furcsa dolgok (Stranger Things) ötödik, egyben utolsó évadát...

MA 09:02

A vércsék veszik fel a harcot a seregélyek ellen a cseresznyéért

A michigani cseresznyeültetvényeken hónapokkal a betakarítás után is izgalommal várják a következő szezont – de nemcsak a termés miatt...

MA 08:49

Az Amazon drónja internetkimaradást okozott: elvágott egy kábelt Texasban

Az Amazon drónos csomagszállítási programja ismét a figyelem középpontjába került, miután egy Waco városában történt incidens során az egyik MK30-as drón szétvágott egy internetkábelt...