2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 18:19

Az univerzum óriási, forgó kolosszusa váratlanul sokkolta a kutatókat

Lyla Jung, az Oxfordi Egyetem csillagásza egy különös, eddig ismeretlen szerkezetre figyelt fel monitorján: 400 millió fényévnyire a Földtől sikerült azonosítani egy óriási kozmikus fonalat, egy több száz galaxisból álló, forgó láncolatot...

MA 17:55

A gyorsan merülő iPhone-ok megmentője jöhet: érkezik az iOS 27

⚡ Sokan bosszankodnak az iOS 26 miatt, mert az iPhone akkumulátora alig bírja a napot...

MA 17:37

Az amerikai kormány pánikszerűen befoltozza a súlyos biztonsági rést

Az amerikai Kiberbiztonsági és Infrastruktúra-biztonsági Ügynökség (CISA) ultimátumot adott a szövetségi hivataloknak: mindössze három napjuk van befoltozni a BeyondTrust-rendszereket érintő súlyos sérülékenységet, amelyet a támadók már aktívan kihasználnak...

MA 17:19

Az Ether túléli a 200 milliárdos eladási vihart

💰 A kriptopiacok továbbra is nyomás alatt vannak, miközben a hétvégi hatalmas eladási hullám után az ether árfolyama visszakapaszkodik a 735 ezer forintos (2000 dolláros) szint felé...

MA 17:01

Tényleg ellopta a mesterséges intelligencia egy rádiós hangját?

📢 A népszerű amerikai rádiós, David Greene szerint a Google NotebookLM nevű MI-eszköze engedély nélkül másolta le a hangját...

MA 16:55

Az OpenAI keményen fellépett az OpenClaw megalkotója ellen

Az OpenAI legújabb húzása, hogy leszerződtette Peter Steinbergert, az OpenClaw nevű MI-ügynök megalkotóját, akitől azt várják, hogy elindítsa a személyes MI-ügynökök új generációját...

MA 16:20

Az első indiai MI-óriás tőzsdei rajtja csúfosan besült

India első MI-cége, amely tőzsdére lépett, nem igazán hozta lázba a befektetőket: a Fractal Analytics részvényei gyengén nyitottak, majd még tovább estek, miközben a szoftverrészvények eladási hulláma miatti bizonytalanság uralkodott a piacon...

MA 16:01

A ByteDance ellen per MI-videók miatt: Disneyt, Cruise-t és Pittet is érinti

A ByteDance alig egy hete dobta piacra új MI-alapú videókészítőjét, a Seedance 2...

MA 15:37

Az ősi varázsló, akitől egy birodalom rettegett

Két évezreddel ezelőtt a Tumaco-Tolita nép kerámiamesterei elképesztő élethűséggel formálták meg közösségük idős vezetőit...

MA 15:19

Az MI felkavarja Hollywoodot: a stúdiók visszatámadnak

A TikTok tulajdonosa, a ByteDance komoly viharba keveredett Hollywoodban a Seedance 2...

MA 14:55

Az év első komoly Chrome-hibája: újabb vészfrissítés érkezett

A Google sürgősségi frissítést adott ki, hogy orvosolja az év első komoly Chrome zéró-napos sebezhetőségét, amit már aktívan kihasználnak a támadók...

MA 14:37

Az új lakáshitel-korszak küszöbén: merre tartanak a kamatok 2026-ban?

🏡 Az elmúlt években a gazdasági előrejelzések gyakran mellétrafáltak, hiszen a COVID–19 alatti lezárások, majd a példátlan pénzügyi ösztönzők alapjaiban borították fel a piacot, amire egy villámgyors kamatemelési hullám is ráerősített...

MA 14:19

A Netflix elkaszálta a Terminátor: Zerót az első évad után

😎 A Netflix újabb sci-fi animét vett le a műsorról: a Terminátor: Zero (Terminator Zero) mindössze egy évadot élt meg...

MA 13:55

Az Android Auto ikonok megújulnak: közeleg az Android 16-hatás?

🚗 A Google egyre közelebb hozza az Android Autót a telefonos élményhez: hamarosan új ikonokat vezethet be, amelyek az Android 16 stílusához igazodnak...

MA 13:37

Az edzés a legerősebb fegyver a depresszió és a szorongás ellen

💪 Egy lényeges szempont, hogy a rendszeres mozgás valóságos csodaszer lehet a depresszió és a szorongás kezelésében...

MA 13:20

Az MI-vagyon, amely átírhatja a jövőt

Stephen Schwarzman, a világ egyik legismertebb magántőke-befektetője, most új célt tűzött ki maga elé: egy, több mint 17 000 milliárd forintnyi vagyont kezelő jótékonysági alap létrehozását, amely a mesterséges intelligencia (MI) és az oktatás fejlesztésére összpontosít...

MA 12:55

A ClickFix új támadása: kártevő érkezik a DNS-en át

A hackerek egyre kreatívabb módszereket vetnek be: a legújabb ClickFix-támadás például a DNS-lekérdezéseket használja ki, hogy kártékony PowerShell-szkripteket juttasson el a gyanútlan áldozatok gépére...

MA 12:38

A legsikeresebb techvezérek három közös titka

👑 A Szilícium-völgyben sosem csökken a tempó: hetente jönnek az új MI-eszközök és fejlesztések, a dolgozók pedig lépést próbálnak tartani, nehogy lemaradjanak...

MA 12:19

Az űrutazás átformálja az agyadat

🚀 Az űrutazás nemcsak a testre, hanem az agyra is hatással van...

MA 12:02

Az aranyárat érő Pikachu-kártya: Logan Paul csúcsot döntött

Logan Paul egyedi Pikachu Illustrator Pokémon-kártyája minden idők legdrágább Pokémon-kártyájaként kelt el: 6,1 milliárd forintot (16,49 millió dollárt) fizettek érte egy online aukción...

MA 11:56

Az MI-adatközpontok áramválságát egy indiai startup törheti meg

Ebből következően érdemes megérteni, hogy egyre kevésbé a számítási teljesítmény, sokkal inkább az elektromos energia jelenti a szűk keresztmetszetet az MI-vel dolgozó adatközpontok bővítésénél...

MA 11:37

A bíráknál is pontosabban ítél az MI?

Ez a jelenség jól illusztrálható azzal, hogy friss kutatások szerint a legújabb MI-modellek szigorúbban követik a törvényeket, mint maguk a bírók...

MA 11:19

A YouTube bekeményít: nincs komment, ha blokkolod a reklámokat

A világ legnagyobb videómegosztóján új szintre lépett a reklámblokkolók elleni harc...

MA 11:01

Az északi diéta: negyedével kisebb esély a korai halálra

🥜 Egy nagy, friss kutatás szerint jelentősen tovább élhetsz, ha az új, környezetbarát északi étrendet követed, miközben a bolygónak is jót teszel...

MA 10:58

Az emberkereskedők új aranybányája: a kriptó

💸 2025-ben elképesztő mértékben, 85 százalékkal ugrott meg a kriptovalutához köthető emberkereskedelem, több százmillió tranzakció jelent meg nyilvános blokkláncokon...

MA 10:49

Az orosz kriptópiac tarol: napi 240 milliárd forint pörög

Oroszországban naponta mintegy 240 milliárd forintnyi (650 millió dollár) kriptovaluta cserél gazdát, ami évente eléri a 48 ezer milliárd forintot (130,5 milliárd dollár)...

MA 10:41

A Blackstone milliárdokat pumpál az indiai MI-forradalomba

💰 India egyik legígéretesebb MI-infrastruktúra-cége, a Neysa, jelentős lendületet kapott: a Blackstone vezetésével mintegy 430 milliárd forint (1,2 milliárd dollár) finanszírozást vont be, hogy ugrásszerűen növelje belföldi számítási kapacitását...

MA 10:33

Az univerzum mégsem tágul örökké: közeleg a nagy összeomlás?

💫 Egy friss elmélet szerint az univerzum élettartamának felénél járhat, vagyis már csak körülbelül 11 milliárd év választ el minket attól, hogy elérje legnagyobb méretét – utána viszont zsugorodni kezd, végül egyetlen pontba omlik össze...

MA 10:25

Az Apollo nagy dobása a kriptóban: indul a Morpho-tokenvásárlás

A Wall Street egyik legnagyobb vagyonkezelője, az Apollo Global Management újabb jelentős lépést tesz a kriptovilágban: akár 90 millió MORPHO tokent is vásárolhat a következő négy évben...