2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 20:56

Az egészségügyi kütyük hódítanak – de ki fizeti a cechet?

💳 Ebből következően érdemes megérteni, hogy az egészségügyi elektronikai eszközök, például a vércukorszint-mérők, ultrahangos tapaszok és vérnyomásmérők elengedhetetlenek lehetnek a betegek állapotának biztonságos nyomon követésében...

MA 20:37

A kaliforniai szexuális deepfake-tilalom leállíthatja az xAI-t

🚫 A héten a kaliforniai főügyészség vizsgálatot indított az Elon Musk-féle xAI ellen, miután a Grok nevű chatbotjukat azzal vádolták, hogy nők beleegyezése nélkül készít szexuális tartalmú deepfake-képeket...

MA 20:20

A bíróság nekimegy az Anna’s Archive-nak – számít ez egyáltalán?

📖 Többek között az egyik leghíresebb árnyékkönyvtár, az Anna’s Archive is célkeresztbe került: a szövetségi bíróság arra kötelezte az oldalt, hogy törölje minden, a WorldCat-ből illegálisan leszedett adatát, álljon le az adatokkal kapcsolatos bármilyen tevékenységgel, és tiltsa meg a további adatkaparást...

MA 20:01

Az MI-forradalom rejtett győztesei: nem csak a techóriások

Nehéz elhinni, de az MI már nem csak a chipgyártókról és szoftvercégekről szól...

MA 19:55

Az apró rengések elárulják Kalifornia félelmetes titkát

Észak-Kalifornia alatt olyan rejtett és összetett törésrendszer sejlik fel, amelyre korábban senki sem gondolt...

MA 19:19

Az áttörést hozó kristályszivacs átírja a gyógyszerkutatás szabályait

Érdemes megvizsgálni, hogy az APF-80 nevű új fém-organikus váz (MOF) miként alakítja át a természetes vegyületek szerkezetének feltárását, és ezzel jelentős előrelépést hoz a gyógyszertervezés és más anyagtudományi területek számára...

MA 19:04

Az OpenAI és Musk 10 milliárd dolláros terve: kriptoláz és MI

🤖 2018 elején Elon Musk néhány hétig komolyan támogatta azt a tervet, hogy az OpenAI 10 milliárd dollárt – azaz mintegy 3 740 milliárd forintot – gyűjtsön össze egy kezdeti tokenkibocsátás (ICO) segítségével...

MA 18:55

Az új Windows-frissítés lefagyasztja a gépeket: leállítás felejtős

Idén januárban sok Windows 11 (23H2) felhasználó szembesülhetett egy szokatlan jelenséggel: hiába próbálták leállítani vagy hibernálni a gépüket, a PC egyszerűen nem hagyta magát kikapcsolni...

MA 18:38

A fononlézer lehet az okostelefonok következő nagy dobása

📱 Lényeges szempont, hogy a mérnököknek sikerült olyan berendezést készíteniük, amely a legapróbb „földrengéseket” képes előidézni: ezek a mikrochip-méretű szeizmikus rezgések nyithatnak utat a jövő okostelefonjainak – kisebbek, gyorsabbak és energiatakarékosabbak lehetnek, mint valaha...

MA 18:19

A Verizon újabb bakija: 7000 forint kártérítés a mobilkimaradásért

Szerda délután komoly szolgáltatáskiesés bénította meg a Verizon hálózatát, ami miatt órákon át nem lehetett sem hívni, sem SMS-t küldeni vagy fogadni, a mobilnet pedig teljesen elérhetetlen volt...

MA 18:02

Az észrevétlen, de tényleg működő okosszemüveg: Even Realities G2

Erre utal többek között az is, hogy a technológiai világban szinte minden stand tele volt Meta Ray-Ban-másolatokkal, mégis az Even Realities G2 okosszemüveg messze kitűnt közülük...

MA 17:55

A kutatók most visszavágtak: feltörték az MI-tolvajokat

A StealC nevű adatlopó vírus gyorsan népszerűvé vált a dark weben, mivel hatékonyan rejti el magát, és hatalmas mennyiségű adatot képes ellopni...

MA 17:37

A memóriaóriás gigaüzeme tarolja az erdőt, lázadnak a zöldek

A Micron megkezdte New York államban az óriási DRAM-gyár építését, amely akár 50 000 új munkahelyet teremthet, miközben az MI-forradalom miatt az égbe szöknek a memóriák árai...

MA 17:02

Az évszázad pere: Musk 47 ezermilliárdot követel az OpenAI-tól

💸 Elon Musk egészen döbbenetes, 29 000 és 47 000 milliárd forint közötti kártérítést követel az OpenAI-tól és a Microsofttól, mondván: a cég elárulta nonprofit küldetését, amivel becsapta őt...

MA 16:57

Az óceánok védelmében új korszak: életbe lépett a nyílt tengerek egyezménye

🌊 2026. január 17-én hatályba lépett a világ első jogilag kötelező érvényű egyezménye, amely a nemzetközi vizek tengeri élővilágának védelmét célozza...

MA 16:39

Az MI-aranyláz kifulladt: Ömlik a pénz, de mire megyünk vele?

Első pillantásra úgy tűnt, hogy az MI forradalma megállíthatatlanul robog előre, és semmi sem állhat az útjába...

MA 16:20

A filléres 400 GbE-s switch tarol a profiknál

📈 A MikroTik legújabb dobása, a CRS804 DDQ típusú switch egy igazi nagyágyú a gyors hálózatépítés világában: mindössze négy darab 400GbE portot kínál, mégis hatalmas teljesítményt sűrít fél rackszélességű házába...

MA 16:02

A test, amely szerveket veszít, mégis túlél – meddig?

🧠 Ezt a jelenséget jól illusztrálja a Gyalog galopp (Monty Python and the Holy Grail) kultikus jelenete, amelyben Artúr király levágja a Fekete Lovag végtagjait, ő pedig hősiesen azt állítja: „Ez csupán karcolás.”..

MA 15:57

Az okosórák új királyai: 2026 legjobb vételei

Nehéz elhinni, de az okosórák lassan mindent tudnak: egészségfigyelés, értesítések, biztonság, sőt, még a doomscrollingról is leszoktatnak...