2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 14:01

Az új kriptóhullám: zuhannak a részvények, áll a Bitcoin

📈 A Bitcoin árfolyama közel 1%-ot emelkedett, most 77 000 dollár, azaz nagyjából 28,1 millió forint körül jár...

MA 13:55

Az első szingapúri űrügynökséggel elrajtol Ázsia új űrversenye

Szingapúr áprilisban elindítja első nemzeti űrügynökségét, hogy vezető szerepet vállaljon a gyorsan növekvő űriparban...

MA 13:18

A Pentagonnal csap össze az Anthropic: botrány a 72 milliárdos MI-szerződés miatt

Az Anthropic és a Pentagon között 72 milliárd forint (200 millió USD) értékű MI-szerződés sorsa komoly veszélybe került...

MA 12:55

A várva várt Bitcoin-szuperciklus elmarad? CZ lehűti a kedélyeket

💸 Hirtelen bizonytalanság: a szuperciklus lekerült a napirendről Changpeng Zhao, vagyis CZ, a Binance korábbi vezetője még hetekkel ezelőtt is arról beszélt, hogy soha nem látott kripto-szuperciklus jöhet a tömeges intézményi befektetések és a kriptóbarát szabályozás miatt...

MA 12:38

A nyílt forráskódú MI a következő globális biztonsági rémálom?

Erre utal többek között az, hogy egyre több kutató hívja fel a figyelmet a nyílt forráskódú MI veszélyeire...

MA 12:19

Az iPhone Fold hosszabb üzemidővel verhet rá a Galaxy Z Fold 7-re

📱 Az Apple idén mutathatja be első hajlítható készülékét, amelyet eddig csak iPhone Foldként emlegetnek...

MA 11:55

A mormoták nem időjósok, hanem a természet mérnökei

🐻 A mormota (Marmota monax) régóta a legnépszerűbb időjárás-jósló állat Észak-Amerikában, de a valóságban megbízhatatlan, ha előrejelzésekről van szó...

MA 11:38

A megbízható MI titka: a visszakeresési infrastruktúra

🔑 Kevesen gondolnak rá, mégis a vállalati MI-rendszerekben már nem az okos válasz, hanem a mögöttes visszakeresési mechanizmus lett a legérzékenyebb pont...

MA 11:19

Az Alphabet részvénye még mindig aranytojást tojik?

💰 Az Alphabet hamarosan közzéteszi 2025 negyedik negyedéves eredményeit, miközben a részvény árfolyama tavaly óta több mint 68%-kal emelkedett...

MA 11:02

Az állami hackerek csapdája: botrány a Notepad++ frissítése körül

🕵 A közkedvelt Notepad++ szövegszerkesztő frissítési rendszerét 2025-ben állami támogatású hackerek támadták meg: hónapokon át képesek voltak rosszindulatú szoftvert kínálni a felhasználóknak, miután sikeresen kompromittálták a Notepad++ hivatalos szerverét...

MA 10:59

A Tether, amely ma mindenkit megoszt: irigység vagy gyűlölet

A Tether, a világ legnagyobb stabilcoinja, az utóbbi hónapokban példátlan átalakuláson ment keresztül...

MA 10:43

Az MI-állásokra már deepfake jelentkezők is pályáznak

Tipikus eset, amikor a technológia fejlődése oda vezet, hogy már az állásinterjúkon is deepfake csalók próbálnak meg átverni valódi cégeket – akár olyanokat is, amelyek maguk is MI-biztonsággal foglalkoznak...

MA 10:33

A parányi fénycsapda, amely átírhatja a kvantumszámítógépek jövőjét

💡 Az elmúlt évek lassú előrelépése után most végre megnyílhat az út a valóban nagy teljesítményű kvantumszámítógépek előtt...

MA 10:25

Az Apple már titokban a második hajlítható iPhone-t tervezi

📲 Az Apple még meg sem jelentette a saját hajlítható iPhone-ját, de máris egy kisebb, kagylóhéj-formájú modell fejlesztését fontolgatja...

MA 10:17

A ParaFi 13 milliárdért tarolt JUP-ban – szárnyal az MI-pénz

A Solana-alapú Jupiter, amely a legnagyobb decentralizált tőzsdeaggregátor, bejelentette, hogy a ParaFi Capital 35 millió dollárt (kb...

MA 09:49

Az amerikai hóvihar lefagyasztotta a TikTokot, de már újra pörög

A TikTok közel 220 millió amerikai felhasználóját érintette egy komoly leállás, amelyet egy hóvihar okozott az Egyesült Államokban...

MA 09:41

Az Apex Legends búcsút int a régi Switchnek – itt a váltás ideje?

Apex Legends hamarosan búcsút int a Nintendo Switch első generációjának. A Respawn bejelentette, hogy a 30...

MA 09:33

Az indonézek ismét engedélyezik a Grok MI-t, ám szoros felügyelet alatt

Indonézia ismét elérhetővé tette a Grok nevű MI-chatbotot, miután ideiglenesen betiltotta, mert több millió kérésre válaszolva gyermekeket is érintő, jogsértő tartalmakat generált...

MA 09:27

Az MI-zaj uralja a közösségi médiát – kitör a lázadás

Az elmúlt években a közösségi média drasztikusan átalakult. Egyre nagyobb mennyiségben terjednek a világhálón azok a képek és videók, amelyek látványosan MI segítségével születnek – és minőségükben gyakran hagynak kívánnivalót maguk után...

MA 09:17

A Polymarket a Jupiterre érkezik – szárnyalhat a Solana

A Solanán működő Jupiter tőzsde most először integrálja a Polymarketet, és ezzel célja, hogy átfogó on-chain predikciós központtá váljon...

MA 09:09

A tenyérnyi e-olvasó, amely egyszerre felbosszant és elvarázsol

📖 Eddigi kedvenc e-olvasóm nagyon egyszerű okból az volt: kicsi volt. Nem volt háttérvilágítása, nem voltak oldalváltó gombjai, mégis minden nap magammal vittem...

MA 08:58

A pánik elsöpri Ázsiát: Dél-Korea vezeti az esést

📈 Az ázsiai–csendes-óceáni térség tőzsdéin hétfőn meredek esések indultak, Dél-Korea állt a lejtmenet élén...

MA 08:49

Az Epstein-ügy már Bill Gates imázsát is megtépázza

🔥 Bill Gates neve ismét előkerült az Epstein-üggyel kapcsolatban, miután újabb igazságügyi dokumentumok részleteket tártak fel a kapcsolatukról...

MA 08:41

Az Apple bekeményít: többé nem követhetnek mindenütt az iPhone-odon

Az Apple új adatvédelmi funkcióval védi a felhasználókat, amely lehetővé teszi, hogy iPhone- és iPad-készülékeken korlátozzuk helyadataink pontosságát a mobilhálózatok felé...

MA 08:33

Az indiai kriptóadó marad, jönnek a brutális bírságok

India 2026–2027-es költségvetése változatlanul hagyja a kriptovalutákra kivetett 30 százalékos nyereségadót, és továbbra is 1 százalékos forrásadót (TDS) von le minden tranzakciónként...

MA 08:26

A néma agybetegség négyszerezheti a demencia esélyét

Az időskori demencia titokzatos kockázati tényezője sokáig rejtve maradt, miközben az orvosok leginkább az agyvérzések és a szív- és érrendszeri problémák hatását kutatták...

MA 08:20

Az olcsó, csendes csodafegyver: teszten a Oneisall Pet Air Purifier

Ez a jelenség jól illusztrálható azzal, hogy a háziállatok rengeteg örömet hoznak a mindennapokba, mégis hajlamosak próbára tenni a türelmünket, főleg, ha a lakás levegőjének tisztaságáról vagy az allergiás tünetek súlyosbodásáról van szó...

MA 08:02

A nagy trükk: így cseréld ki az AirTag elemét otthon, szerszám nélkül

Az AirTag csendben dolgozik a háttérben, segít nyomon követni a kulcsaidat, táskádat vagy egyéb értékeidet...

MA 07:57

Az Alzheimer-kór még pihenés közben is összekuszálja emlékeinket

Az Alzheimer-kór egyik legrejtélyesebb folyamata, hogy a memóriazavar nem az emlékek teljes eltűnése, hanem azok összezavarodása miatt alakul ki...