2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 16:34

A szemünk hihetetlen eredete egy ősi egyszemű lényig vezet

👀 Az emberi szem története rendkívül messzire, mintegy 600 millió évvel ezelőttre nyúlik vissza, ahol egy furcsa, egyszemű, féregszerű ős áll a középpontban...

MA 16:23

Az utolsók köztünk Online: egy elveszett legenda története

💀 Az Az utolsók köztünk Online (The Last of Us Online) törlése sok rajongónak csalódást okozott, hiszen szinte már kész volt, mégsem jelenhetett meg...

MA 16:01

Az intézményi pénz visszatért: újra szárnyal a Bitcoin

💰 Az elmúlt héten szárnyalásba kezdett a digitális eszközalapok piaca: a teljes kezelt vagyon 155 milliárd dollárra, vagyis közel 57 ezer milliárd forintra nőtt, ami az idei év legmagasabb szintje, bár még így is messze elmarad a 2025 októberi, 263 milliárd dolláros csúcstól...

MA 15:57

Az Earfun Clip 2: ennyiért tényleg leesik az állad?

😍 Az Earfun Clip 2 a legújabb klipszes, nyitott kialakítású fülhallgató, amely pénztárcabarát árral és meglepő szolgáltatáskínálattal érkezett...

MA 15:45

A mélyóceánban talált aranygömb titka végre lelepleződött

🥁 A Csendes-óceán fenekén, 3200 méterrel a felszín alatt váratlan felfedezést tett egy tudományos expedíció...

MA 15:34

Az AMD Ryzen processzorok ára bezuhant: végre olcsón erős gép!

Megemlíthető továbbá, hogy a PC-építők számára végre valami pozitívum történik: három népszerű AMD Ryzen processzor ára jelentősen csökkent az Amazonon...

MA 15:23

Az új bitcoinláz előtt 80 ezernél jött a padlófék

💸 Egy lényeges szempont, hogy a bitcoin árfolyama ismét elakadt egy látványos, kerek számnál: 80 ezer dollárnál...

MA 15:12

Az esőcsináló gombák titka: ősi baktériumgénnel manipulálják az időjárást

☀ Kezdetben csak néhány baktériumfajról tudtuk, hogy képesek előidézni a jégkristályok képződését — mostanra viszont kiderült, hogy egyes gombafajták is rendelkeznek hasonló tulajdonsággal...

MA 15:01

Az ezüst lámamosoly mögött: 600 éves inka miniatűrök titkai

😃 A lámák nélkül elképzelhetetlen lett volna az inka társadalom, hiszen ezeket a négylábúakat teherhordónak, szent állatnak és mindennapi szükségleteikhez is felhasználták...

MA 14:56

Az olajár-sokk a Bitcoin árát is megrázta

A hétfői nap forgószélként söpört végig a kriptopiacon: a Bitcoin rövid időre 79 500 dollárig (közel 29 millió forintig) repült, de a 80 000 dolláros küszöbnél megtorpant, és hirtelen elkezdett lecsúszni...

MA 14:45

Az EU rátesz egy lapáttal: teljes az orosz kriptozárlat

💸 Az Európai Unió minden eddiginél átfogóbb szankciócsomagot vezet be Oroszországgal szemben, amely különös hangsúlyt fektet a kriptovaluták elleni fellépésre...

MA 14:34

Az irtószerek drámaian megdobhatják a rák esélyét

🔪 Egy friss tanulmány átfogóan vizsgálta, miként növeli a mezőgazdasági irtószerek környezeti jelenléte a daganatos betegségek kockázatát...

MA 14:23

A lopakodás magasiskolája a Crimson Desertben

🧙 A Crimson Desert hetedik fejezetének elején Beighen falujába érkezel, ahol a Bared Fang küldetés vár...

MA 11:03

Az új Bitcoin-hasadás: fellángolt a vita a Satoshi-érmék sorsáról

💸 Paul Sztorc, a Bitcoin egyik legrégebben aktív fejlesztője, radikális lépésre készül: 2026 augusztusában, eCash néven kemény elágazással, azaz hard forkkal szétválasztaná a Bitcoin blokkláncát...

MA 10:58

A hét, amikor infláció, kamatok és kriptoóriások megmozgatták a piacot

📈 A következő napok tele vannak kulcsfontosságú makrogazdasági eseményekkel, amelyek jelentősen befolyásolhatják a kriptopiaci mozgásokat...

MA 10:50

Az okosgyűrűk forradalma: stílusos egészségkövetés pillanatok alatt

💍 Ki ne szeretné figyelemmel kísérni az egészségét anélkül, hogy ormótlan fitneszpántokat viselne?..

MA 10:43

Az NFT-láz vakítás: sorvadó piac tartja a drága pingvineket

🐧 A Bored Ape Yacht Club (BAYC) és a Pudgy Penguins gyűjtemények lenyűgöző árrobbanást produkálnak, miközben a globális NFT-piac valójában egyre kisebb: az eladások és az aktív felhasználók száma meredeken csökken...

MA 10:22

A keleti erdőkért harc: küszöbön a kitermelés?

Fontos megérteni, hogy az Egyesült Államok keleti részén található, fejlesztetlen erdőterületek sorra tűnhetnek el a nyersanyag-kitermelés és fakitermelés miatt...

MA 09:29

Végre itt a Diablo IV: A Gyűlölet Ura rajtjának időpontja

🔥 A várva várt Diablo IV: A gyűlölet ura (Lord of Hatred) kiegészítő hamarosan elérhetővé válik, és első ízben lehetőséget ad arra, hogy átkelj a tengeren Skovos titokzatos szigeteire...

MA 09:15

A Quordle, amitől leolvad az agyad – mennyire vágod a szavakat?

Hosszú idő után is tartja magát a Quordle, amely a Wordle mintájára négyszavas kihívással tornáztatja az agytekervényeket...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/27

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     English Vocab & Dictionaries + (iPhone/iPad)A Simply Paste Wordbook M Pro egy angol szókincsfejlesztő alkalmazás felhasználóbarát, egyszerűen kezelhető felülettel...

MA 09:08

A mai NYT Connections megoldásai – Te mindet kitalálod?

Érdemes látni, mennyire agyafúrt tud lenni a Connections nevű szójáték, amely a New York Times kínálatában az egyik legnépszerűbb fejtörővé vált...

MA 09:01

A hosszú élet titka: keverd a mozgásformákat!

A hosszabb élethez vezető út nem csak a több testmozgáson át vezet, hanem legalább ugyanannyira fontos, hogy minél többféle fizikai tevékenységet végezzünk – erre jutottak több évtizedes kutatások...

MA 08:57

A bitcoin új ralija megtorpant: a nagy áttörés még várat magára

Ázsiai kereskedésben hirtelen 12 hetes csúcsra, 29,1 millió forinthoz közeli szintre (79 400 dollár, vagyis körülbelül 29,1 millió forint) ugrott a bitcoin árfolyama, majd gyorsan visszahúzódott...

MA 08:43

Az új Gothicban újra eltévedünk – térkép nélkül

Ami kezdetben ártalmatlannak tűnt, ma igazi legenda. A Gothic az ezredforduló ikonikus szerepjátéka, amely a nyílt világ műfajában olyan merész, életszerű megoldásokat hozott, amelyek még A királyság eljövetele (Kingdom Come: Deliverance) vagy A Vaják (The Witcher) világaira is hatással voltak...

MA 08:36

A Kayo Sports bárhonnan: így kapcsolódj be az ausztrál sportőrületbe

🏀 Ötvennél is több sportág közvetítése, élő meccsek, visszanézhető bajnokságok – a Kayo Sports tényleg a sport Netflixe...

MA 08:08

Az Assassin’s Creed: Hexe-ből menekülnek a vezetők – mi történik?

Valami nagyon furcsa történik az Assassin’s Creed: Hexe háza táján. Rövid időn belül már a második vezető távozott: Benoit Richer, a játék rendezője is elment, kinevezése sem tartott sokáig...

MA 07:57

Az okostelefon, amely megmentette egy titkosszolgálati ügynök életét a Fehér Ház gáláján

📞 Érdekes felvetés, hogy néha a legmodernebb technológia nemcsak előny, hanem életmentő is lehet...

MA 07:51

A házimozi sikere a tervezésen áll vagy bukik

Egy professzionális házimozi kialakítása sokak álma: csendes, sötét tér, tökéletes hangzás, moziszékek és óriáskivetítő a nappaliban...