2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 14:45

Az iPhone híváselőzményei végre kereshetők – és ezt imádjuk!

A mostani iPhone-okon már gyerekjátékká vált visszakeresni, mikor beszéltél utoljára valakivel, vagy hogy hová tűnt egy fontos hangposta-üzenet...

MA 14:35

Az amerikai koncertipar gigásza tiltott monopóliumot épített ki

Hatalmas vihart kavart az Egyesült Államokban, hogy egy szövetségi esküdtszék illegális monopóliumnak minősítette a Live Nationt és leányvállalatát, a Ticketmastert...

MA 14:24

Az ózonréteg gyógyulása késik: ipari kibúvók állják útját

🌤 A világ évtizedek óta dolgozik az ózonréteg helyreállításán, ennek ellenére egy alig ismert ipari kiskapu komoly gátat szab a regenerációnak...

MA 14:01

Az Opera MI‑asszisztensek cunamiját zúdítja a böngészésre

🌊 Na most kapaszkodj, mert az Opera böngésző most már valós időben összeköti a böngészőablakodat a legnépszerűbb AI-csevegőkkel, így jelentősen felpörgeti a böngészési élményt...

MA 13:45

Valóban létezett az apró, de halálos Nanotyrannus?

Tipikus eset, amikor a tudományos világ évtizedeken át vitatkozik egyetlen lelet jelentőségéről, míg végül egy elfeledett apró csont választ ad a nagy kérdésre...

MA 13:12

A YouTube-on végre letilthatók a Shorts – megmutatjuk, hogyan

Mostantól bárki eltüntetheti a rövid videókat a YouTube mobilos feedjéből, ha elege van a végtelen görgetésből...

MA 13:03

A föld mélyének ősi titka: a ritkaföldfémek forrása

🌍 Évmilliárdokkal ezelőtt a Föld kérge alatt zajló események máig éreztetik hatásukat: a legújabb kutatások szerint a ritkaföldfémek nem véletlenszerűen, hanem egy igen speciális földtani folyamat eredményeképpen koncentrálódnak bizonyos helyeken...

MA 12:56

Az Nginx UI kritikus sebezhetősége: tárva-nyitva a támadóknak

🔒 Egy frissen felfedezett biztonsági rés teljes szerverátvételre ad lehetőséget az Nginx UI felületén keresztül, mégpedig mindenféle hitelesítés nélkül...

MA 12:45

Az IBS-gyógyszerek sötét oldala: rejtett hosszú távú kockázatok

🔴 Egy átfogó, közel húszéves kutatás több mint 650 ezer irritábilis bél szindrómával (IBS) élő amerikai egészségügyi adatait vizsgálta meg, és aggodalmakat vet fel a sokszor rutinszerűen alkalmazott gyógyszerek hosszú távú biztonságával kapcsolatban...

MA 12:34

Az a robotkutya, amely már lepipálja a főnöködet

Spot, a Boston Dynamics klasszikus robotkutyája mostantól már nemcsak szaladgál, hanem tényleg elég okos is lett...

MA 12:02

Az evolúció él és virul: a természet ma is átírja génjeinket

Sokan úgy gondolták, hogy az emberiség az utóbbi tízezer évben alig változott genetikailag...

MA 11:56

Az új Steam-trükk, amivel olcsóbban és jobban játszhatsz?

🎮 A Steam, a PC-s játékosok kedvenc digitális áruháza, hamarosan két izgalmas újítással könnyítheti meg mindennapjainkat...

MA 11:46

Az univerzum rejtélye egyre mélyül – valami nem stimmel

Az elmúlt évtizedek legnagyobb és legalaposabb kozmológiai vizsgálata készült el, amely meglepő következtetéseket hozott: továbbra sem értjük igazán, mi gyorsítja az univerzum tágulását...

MA 11:34

Az új Windows Server 2025 frissítést telepíted, vagy kihagyod?

Frissen tartod a szerveredet? Jobb, ha kétszer is ellenőrzöd: a legújabb, áprilisi Windows Server 2025 biztonsági frissítés ugyanis nem mindenkinek hajlandó feltelepülni...

MA 11:23

Az első koreai biztosító tokenizálja az államkötvényeket – mérföldkő a piacon

💰 Felmerül a kérdés, hogy a digitális eszközök valóban forradalmasítják-e a pénzügyi rendszert, különösen most, hogy a Ripple, az egyik legismertebb blokklánc-vállalat partnerségre lépett Dél-Korea egyik legnagyobb életbiztosítójával, a Kyobo Life-fal...

MA 11:13

Az evolúció rákapcsolt: miért lett több vöröshajú és kevesebb kopasz?

Érdemes megvizsgálni, hogy az emberi evolúció az utóbbi 10 ezer évben korántsem lassult le, mint ahogyan sokáig hitték...

MA 11:02

A mesterséges intelligencia feltámasztja Val Kilmert – a rajongók kiakadnak

📺 Az A sír mélyéig (As Deep as the Grave) című film első előzetese hatalmas felháborodást váltott ki az interneten, miután kiderült: a készítők teljes egészében MI-vel generált Val Kilmer-digitális hasonmást szerepeltetnek a történetben...

MA 10:57

Az adatvédelmi rémálom: a Chrome észrevétlenül követ bárkit

Nehéz elhinni, de alig van olyan népszerű szoftver a világon, amely annyira kiszolgáltatottá tenné a felhasználóit, mint a Google Chrome...

MA 10:46

Az időseket miért kíméli jobban a szezonális allergia?

🧐 A tavasz mindig próbára teszi azokat, akik érzékenyek a virágporra: idén csaknem 80 millió amerikai számíthat tüsszentésre, orrfolyásra vagy köhögésre allergiás reakció miatt...

MA 10:39

A benned zajló mikrobaháború: az immunrendszer ősi fegyverei

Az élővilágban folyamatos fegyverkezési verseny zajlik a fajok között, amelyek mind újabb és újabb eszközökkel próbálnak felülkerekedni ellenfeleiken...

MA 10:30

A homár tényleg érez fájdalmat – friss kutatás igazolja

Erre utal többek között az is, hogy a norvég homárok különösen érzékenyen reagálnak az elektromos áramra: a legfrissebb tudományos vizsgálatok szerint a humán fájdalomcsillapítók, például az aszpirin és a lidokain jelentősen csökkentik a homárok menekülési reakcióit, amikor áramütés éri őket...

MA 10:23

Az űrig ér a Vodafone–Three: tényleg mindenhol lesz térerőd?

🚀 A Vodafone–Three most zöld lámpát kapott az egyesült királyságbeli távközlési hatóságtól (Ofcom), hogy műholdas technológiával közvetlenül jelet sugározhasson a telefonodra – normál okostelefonokra, mindenféle extra kütyü nélkül...

MA 10:01

Az MI már a Starbucks-rendelésedet is kitalálja – vagy elrontja?

Van, akinek a reggeli életérzéséhez hozzátartozik egy frappuccinó, vagy épp egy karamellás-mogyorós finomság a Starbucksban...

MA 09:58

A világot sokkolja az aláírt szoftverrel terjedő vírusirtó-gyilkos támadás

Egy digitálisan aláírt adware-eszköz több ezer gépen jutott rendszergazdai jogosultságokhoz, majd kikapcsolta a vírusirtó programokat...

MA 09:51

Az okos robotkutyák már a nyomásmérőt is gond nélkül leolvassák

Különösen igaz ez akkor, ha valaki ipari üzemben szeretné ellenőrizni, minden rendben van-e a műszerekkel vagy a csövekben áramló folyadékokkal...

MA 09:43

A tojásrakó ősök mindent túléltek – így születtek az emlősök

Egy 250 millió éves fosszília egyértelműen bizonyította, hogy az ősi emlősök közeli rokonai tojásrakók voltak...

MA 09:36

Az Androidban végre jöhet a SIM-enkénti csengőhang

📱 Az Android rendszert használók régóta várják, hogy minden SIM-kártyához külön csengőhangot lehessen beállítani...

MA 09:30

Az otthoni robot, ami örökre leveszi a házimunkát a válladról

Ez a jelenség jól illusztrálható azzal, hogy Kínában már kapható egy humanoid robot, amely önállóan boldogul a háztartási munkákkal – az ágyazástól a reggeli készítéséig...

MA 09:23

Az új TotalRecall újra rést üt a Windows 11 védelmén

Felmerül a kérdés, hogy tényleg biztonságosabb lett-e a Windows 11 Recall funkciója a legutóbbi változtatások után...