Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 08:23

Az UGREEN hálózati switch: valódi áttörés fillérekért?

🔋 Érdekes felvetés, hogy a gyors hálózatépítéshez már filléres eszközöket is kaphatunk – ráadásul most egy olyan, 2...

MA 08:16

A jegesmedvék titkos fegyvere: ugráló gének a túlélésért

🦜 A klímaváltozás brutalitása a jegesmedvék életét is felforgatja. Míg a sarkvidéki jég kiterjedése februárban történelmi mélypontra csökkent, és az Északi-sarkvidék négyszer gyorsabban melegszik, mint a világ többi része, a jegesmedvék lassan elveszítik vadászterületeiket...

MA 08:02

Az MI segít a Divinity fejlesztésében, embert nem vált ki

Érdemes megvizsgálni, mire használják jelenleg az MI-t a játékstúdiók – különösen, ha minden idők egyik legsikeresebb RPG-jének készítője, a Larian Studios nyilatkozik erről...

MA 07:57

Az élő sejtek mozgásából is nyerhetünk áramot

⚡ Az élő sejtek nemcsak passzív építőkövek – nem kizárt, hogy képesek saját áramot fejleszteni...

MA 07:53

Az Aqua10 Ultra tényleg forradalmasítja a takarítást?

🛁 A Dreame Aqua10 Ultra robotporszívó a prémium kategóriát célozza meg, és sokak számára új mércét jelenthet a padlótisztításban...

MA 07:44

A WhatsAppon keresztül kémkedhet utánad a mobilod

A biztonsági szakértők most hozták nyilvánosságra a Silent Whisper nevű követési technikát, amely a legnépszerűbb üzenetküldő alkalmazások, például a WhatsApp és a Signal sebezhetőségeit használja ki...

MA 07:36

Az Autopilot-botrány megrengeti a Teslát: veszélyben a kaliforniai eladások

A Tesla komoly bajba került Kaliforniában, miután egy állami bíró kimondta, hogy félrevezető volt, ahogyan az Autopilotot és a Full Self-Driving funkciót reklámozta...

MA 07:30

A Samsung Micro RGB óriástévék végre kisebb méretben is érkeznek

A Samsung évekkel ezelőtt bemutatta a gigantikus, 292 cm-es (115″) Micro RGB TV-jét, most azonban ez a technológia sokkal több nappaliba beköltözhet...

MA 07:22

A nappalid titkos kémje: így figyelhet a tévéd

📺 Texas perelte be az öt legnagyobb tévégyártót, mert azok állítólag titokban képernyőképeket készítenek arról, mit néznek a felhasználók, és ezt engedély nélkül használják fel...

MA 07:16

Az északi-sarkvidék eltűnik a szemünk előtt: húsz év drámája

🌌 Az elmúlt húsz évben az Északi-sarkvidék rendkívüli gyorsasággal változott meg, ahogy a hőmérséklet sosem látott ütemben nőtt, és a jég olvadása felgyorsult...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 12/17

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     LUCH: Photo Effects & Filters (iPhone/iPad)A LUCH Films egy modern fotóalkalmazás, amellyel a képeidet filmes, analóg stílusban szerkesztheted...

MA 07:10

A texasi kormány háborút hirdet az okostévék titkos megfigyelése ellen

📺 Texas főügyésze, Ken Paxton, nagy port kavart azzal, hogy eljárást indított öt vezető okostévé-gyártó ellen, köztük a Samsung, az LG, a Sony, a Hisense és a TCL cégekkel szemben...

MA 07:02

Az ősi méhek titkos rejteke: fészkek a csontok mélyén

🐝 Több ezer éve a mai Dominikai Köztársaság területén egy barlang rejtegette egyedülálló titkát: a kihalt rágcsálók és lajhárok csontjai nemcsak a ragadozók maradványai voltak, hanem méhek otthonául is szolgáltak...

MA 06:59

Az Nvidia pótolja az amerikai MI‑modellek hiányát

🤖 Ilyen eset például, amikor a vállalatok azért nem vezetnek be MI-t, mert nincs elérhető, kiváló minőségű, nyílt súlyú modell, amely mellett nem merül fel az adatszivárgás veszélye...

MA 06:50

Az új Android-kártevő a Play Áruházban bújik meg

Egy új androidos kártevő, a Cellik bérbe vehető eszközként jelent meg a hackerek körében, rengeteg funkcióval: képes bármely, a Google Playről elérhető alkalmazást megfertőzni úgy, hogy a felhasználó észre sem veszi a különbséget...

MA 06:43

A népszerű bővítmények titokban lehallgatják az MI-beszélgetéseidet

🕵 Több mint 8 millió felhasználó töltött le olyan böngészőbővítményeket, amelyek ahelyett, hogy védenék az adatokat, épp ellenkezőleg: minden egyes MI-vel folytatott chatet rögzítenek, és az adatokat visszaküldik a fejlesztőknek...

MA 06:37

A Mars óriási pillangókrátere ősi víz nyomait rejti

Érdekes felvetés, hogy a Mars felszínén egy hatalmas, pillangó alakú kráter található, melyet a legújabb képeken az Európai Űrügynökség (ESA) mutatott meg a világnak...

MA 06:29

Az MI lepipálta a mérnököket: 843 alkatrészes Linux-gép elsőre indul

A Los Angeles-i Quilter nevű startup kevesebb mint egy hét alatt újrarajzolta a számítástechnika határait: MI-re bízta egy vadonatúj, kétpaneles, Linuxot futtató alaplap megtervezését...

MA 06:23

A Waymo 15 milliárdot szerez: beindult az önvezetés aranyláz?

Az Alphabet tulajdonában lévő Waymo komoly lépésre készül: a robotaxi-szolgáltató közel 5 500 milliárd forintnyi (15 milliárd USD) friss tőkével akarja felgyorsítani a növekedést...