2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 20:25

A Yahoo feltámadása: visszatér a web régi kedvence

A Yahoo az elmúlt évtizedek egyik legnagyobb hullámvasútját járta be az internet világában: fénykorából, amikor még az egész világhálót segített feltérképezni, az elhúzódó válságig és a Verizon nevű mobilóriás keblébe olvadásáig sok mindenen keresztülment...

MA 20:12

Az unalmas stabilcoin-részvény, amely tarol a kriptopiacon

Habár a stabilcoinokat általában a kriptovilág szürke eminenciásainak tartják, most mégis a Circle részvénye tarol: egyetlen hónap alatt több mint 100%-kal emelkedett az árfolyama...

MA 19:45

Az OpenAI kacérkodik az erotikával, de a pornótól hátrál

😉 Mostantól lehet majd pajzánul beszélgetni a ChatGPT-vel, de ne számíts 18+-os képekre, hangokra vagy videókra...

MA 19:34

Az xAI újraindul: megbotlott Musk egója a siker küszöbén?

Elon Musk alig egy hónappal azután, hogy alapította saját MI-startupját, az xAI-t, máris teljes átszervezésbe kezdett...

MA 19:24

A százéves rejtély: hová tűnt Nell, az első folyékony hajtóanyagú rakéta?

🚀 1926. március 16-án egy jeges mezőn emelkedett a magasba Robert Goddard úttörő rakétája, amely elsőként használt folyékony hajtóanyagot...

MA 17:56

A szék, ami végre megoldja a félig hordott ruhák gondját

👖 Felmerül a kérdés, mit kezdjen az ember azokkal a ruhákkal, amelyeket már egyszer felvett, de még nem kell kimosni – a padlón való gyűjtésük helyett most felbukkant egy kreatív megoldás...

MA 17:46

A Legyőzhetetlen 4. évada végre berúgja az ajtót

🔥 A világ sorsa forog kockán, amikor elindul a Legyőzhetetlen negyedik évada – Mark Grayson pedig kénytelen végezni egy ártatlan emberrel...

MA 17:23

A jó szándék kevés: az akadálymentesség rejtett csapdái

👁 A digitális világban ma már mindenki hallott arról, mennyire fontos a weboldalak akadálymentessége, mégis a gyakorlatban gyakran hatalmas szakadék tátong a tudatosság és a megvalósítás között...

MA 17:12

A tiltott elmélet, amely átírná a kvantummechanikát

⚠ Már több mint száz éve, hogy a kvantummechanika forradalmasította a fizikát...

MA 17:03

A Wi‑Fi 7 száguld, de alig akad, aki kihasználja

Sokan nem tekintik sürgős feladatnak a router cseréjét, pedig lehet, hogy ezzel jól járnának – főleg azok, akik gyakran küzdenek szakadozó, instabil internettel...

MA 16:56

Az árnyékban burjánzó MI: súlyos következményei lehetnek, ha nem figyelsz

🕴 A vállalatoknál egyre több digitális eszköz és alkalmazás épül be a mindennapi működésbe, így ma már szinte minden dolgozó használ valamilyen MI-alapú megoldást...

MA 16:45

Az óceán elveszett hangja: előkerült a valaha rögzített első bálnadal

Egy különleges, 1949-ben rögzített bálnadal került elő, amely minden eddiginél mélyebb bepillantást enged ezeknek az óriási állatoknak a kommunikációjába...

MA 16:24

Az új Bitcoin-láz: már a 75 ezer dollárt ostromolja

A hét elején újabb lendületet kapott a kriptopiac: a bitcoin árfolyama újra megközelítette a 75 000 dolláros (kb...

MA 14:03

Az iPhone-od lesz a jogosítványod? Itt a nagy áttörés!

Például reggel elindulsz dolgozni, az iPhone-od a zsebedben, de otthon hagyhatod a vastag pénztárcádat – már a jogosítványodat sem kell vinned...

MA 13:56

A Google most letiltotta az egyik legnépszerűbb Chrome-bővítményt

🚫 Érdekes fejlemény, hogy a Save as Image Type bővítmény, amely sokaknak megkönnyítette a képek mentését különböző formátumokban, váratlanul eltűnt a Chrome-ból...

MA 13:45

Az amerikai tőzsdefelügyelet elállt a BitClout-alapító elleni pertől

A New York-i déli kerületi szövetségi bíróságon március 12-én végleg lezárták az amerikai tőzsdefelügyelet (SEC) polgári eljárását, amelyben Nader Al-Najit, a BitClout és a DeSo blokkláncplatformok létrehozóját vádolták meg...

MA 13:35

Az atomi frusztráció forradalmasíthatja a kvantumfizikát

⚡ A Kaliforniai Egyetem kutatói egy egészen különleges kvantumállapot létrejöttére bukkantak, amikor egy kristály atomi szerkezetében kétféle, egymással versengő frusztráció – mágneses és kötési – egyidejűleg jelenik meg...

MA 13:23

Az új csodadallam tényleg 24 perc alatt elűzi a szorongást?

🎵 Egy friss klinikai vizsgálat szerint már 24 percnyi, speciálisan megtervezett zenehallgatás is jelentősen enyhítheti a szorongás tüneteit...

MA 12:04

Az elavult rendszerektől a Cloudflare One-ig: Leáldozott az egylépéses átállások korának

A hálózati rendszermérnökök számára kevés dolog stresszesebb, mint amikor egy hétvége alatt kell átalakítani egy teljes infrastruktúrát, különösen, ha ez egy 30 ezres cégnél, több mint 1000 elavult alkalmazás új rendszerre való átkapcsolását jelenti...

MA 11:56

A káosznak vége: mobilon is rendezheted Spotify-listáidat

📷 Egy lényeges újdonság, hogy a Spotify mobilos alkalmazása hamarosan olyan funkcióval bővülhet, amelyre a felhasználók már 15 éve várnak: a lejátszási listák mappáinak kezelése közvetlenül telefonról is elérhető lesz...

MA 11:46

A műanyag fogságában élünk: a műanyag-detox döbbenetes igazsága

Egy átlagos nap szinte minden perce műanyaghoz köt: műanyag palackból isszuk a vizet, műanyag flakonból nyomjuk a tusfürdőt, műszálas ruhát viselünk, műanyag kiegészítőkkel körülvéve indulunk munkába...

MA 11:36

Az MI-háború tétje: veszélyben a felhasználók biztonsága?

A közösségi médiaóriások, köztük a TikTok és a Meta (a Facebook és az Instagram anyavállalata) az utóbbi években a felhasználók figyelméért vívott algoritmikus verseny során kérdéses döntéseket hoztak, amelyek lehetővé tették káros tartalmak nagyobb arányú megjelenését a felhasználói hírfolyamokban...

MA 11:24

Az új Galaxy S26 sem húzza ki a Samsungot a válságból

A Samsung történetének egyik legsikeresebb előrendelési hullámát könyvelheti el a Galaxy S26-sorozattal, de a vállalat mobilüzletága mégis vészhelyzeti üzemmódban működik...

MA 11:12

Az új Samsung Wide Fold: dupla élmény vagy dupla csalódás?

A Samsung idén nagyot villant: ha minden igaz, érkezik a Wide Fold – a pletykák szerint ez lesz a válasz a feltörekvő iPhone Foldra...

MA 11:02

Az új Galaxy S26 Ultra kijelzője váratlanul gyenge lett

😥 A Samsung Galaxy S26 Ultra legfrissebb bejelentése nagy port kavart a vadonatúj, adatvédelmi célú kijelzőinnovációval, amely a betekintési szögeket szabályozza az extra adatvédelemért...

MA 10:57

Az új rákdetektor másodpercek alatt leleplezi a daganatokat

Egy forradalmian új, „világító” antitest fejlesztésével a kutatók képessé válhatnak arra, hogy a daganatos betegségek kimutatása egyszerűbbé, gyorsabbá és pontosabbá váljon...

MA 10:51

Itt a nagy áttörés: napfényből üzemanyagot termelő anyagok

🔥 A napenergiából származó üzemanyag vagy vegyi anyag előállítása régóta foglalkoztatja a tudományos világot...

MA 10:43

Az ausztrál szenátus rákapcsol: jön a kemény kriptószabályozás

💰 Végre történik valami nagyon is húsbavágó Ausztráliában: a szenátusi bizottság rábólintott egy olyan törvényjavaslatra, amely a kriptoplatformokat és letétkezelő cégeket simán beemeli az ország pénzügyi szolgáltatási rendszerébe...

MA 10:36

Az XRP áttörte az ellenállást: indul az újabb rali?

Az XRP árfolyama rövid idő alatt 3%-kal nőtt, túllépte az 545 Ft-os (1,47 USD) szintet, miután áttörte a hosszú ideje fennálló ellenállást...