2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

APP
MA 09:11

APPok, Amik Ingyenesek MA, 6/2

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     ICD-10 Dictionary (iPhone/iPad)Ez a termék lehetővé teszi, hogy ICD-10 kód, betegség neve vagy tünetek alapján keress információkat...

MA 06:05

Történelmi események a mai napon (Június 2.)

Kiemelkedő nap a történelemben: a vandálok 455-ben kifosztják Rómát, Olaszország 1946-ban köztársasággá válik, II...

APP
hétfő 09:11

APPok, Amik Ingyenesek MA, 6/1

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Lively Letters – Phonics (iPhone/iPad)Ez az alkalmazás a fizika elsajátítását teszi élményszerűvé, és megjelenése után azonnal az App Store fizetős oktatási toplistájának élére került...

hétfő 06:05

Történelmi események a mai napon (Június 1.)

Viharos nap a történelemben: trónviszály, titkos szerződés, világháborús csaták és modern kori tragédiák rajzolják ki az évszázadok ívét...

APP
vasárnap 09:11

APPok, Amik Ingyenesek MA, 5/31

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     FormatX – All Media Converter (iPhone/iPad)A FormatX egy sokoldalú, felhasználóbarát formátumátalakító szoftver, amely videók, hangfájlok és képek szerkesztését, illetve konvertálását teszi lehetővé...

vasárnap 06:06

Történelmi események a mai napon (Május 31.)

Ma olyan nap, amikor az óratorony 🕰️ London szívében életre kelt, a tengeri ütközet 🚢 a világ legnagyobbjaként dördült el az első világháborúban, és sötét fejezet nyílt az amerikai történelemben a tulsa-i erőszakkal...

APP
szombat 09:11

APPok, Amik Ingyenesek MA, 5/30

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Inkflow Plus Visual Notebook (iPhone/iPad) Between Dates Calendar Math (iPhone/iPad) FormatX – All Media Converter (iPhone/iPad) ICD-10 Dictionary (iPhone/iPad) ImgRef (iPhone/iPad) Monthly Dystopia (iPhone/iPad) Planetary Hours + Widget (iPhone/iPad) Lively Letters – Phonics (iPhone/iPad) War Mongrels (iPhone/iPad) ContactVault Pro (iPhone/iPad) Risp: Budget &...

APP
péntek 09:11

APPok, Amik Ingyenesek MA, 5/29

Fizetős iOS appok és játékok, amik ingyenesek a mai napon...

APP
csütörtök 09:11

APPok, Amik Ingyenesek MA, 5/28

Fizetős iOS appok és játékok, amik ingyenesek a mai napon...

szerda 19:13

A DataGrail szerint beszállítód engedély nélkül etetheti az MI-t ügyféladataiddal

🚫 A cégek általában úgy gondolják, hogy a hivatalos adatfeldolgozási szerződésük (DPA) garantálja, hogy partnereik megfelelően kezelik az ügyfeleik adatait...

szerda 19:01

A népszerű öregedésgátló koktél súlyos agykárosodást okozott egerekben

💉 A legújabb kutatások szerint a széles körben vizsgált, öregedésgátlónak tartott gyógyszerkombináció komoly agykárosodást idézhet elő...

szerda 18:57

A rómaiak és vikingek alig hagytak nyomot a brit génekben

🕵 A Római Birodalom közel négyszáz évig uralta Britanniát, mégis a legfrissebb ősi DNS-kutatások szerint szinte alig hagytak genetikai nyomokat maguk után az ott élőkben...

szerda 18:46

Az Nvidia MI-GPU idén csúszik – a PC-gamerek örülhetnek

🎉 Nvidia legfrissebb, kifejezetten MI-következtetésre fejlesztett grafikus kártyája, a Rubin CPX idén már biztosan nem jelenik meg – és meglepő módon ennek örülhetnek a PC-s játékosok...

szerda 18:35

A zavaró hangokat hamarosan messzire tolhatod Discordon, térbeli hangzással

A Discord hamarosan bevezethet egy forradalmi újdonságot, amelynek segítségével a felhasználók a hívásokban részt vevőket térben is elhelyezhetik maguk körül...

szerda 18:23

Az új lézeres hőkezelés megállíthatja a vakságot, mielőtt kialakulna

Az időskori makuladegeneráció (AMD) világszerte emberek millióinak életét nehezíti meg, különösen a 80 év felettiek körében...

szerda 17:58

A MI-forradalom epicentruma: az Nvidia évente 55 ezer milliárdot önt Tajvanba

🚀 Felmerül a kérdés, mitől lett Tajvan a mesterséges intelligencia világközpontja, és miért hajt végre ott az Nvidia soha nem látott ütemben beruházásokat...

szerda 17:35

A Google Health botrányosan rossz? Dühöngenek a Fitbit-rajongók

😡 A Google mostanra szinte mindenkinél lecserélte a korábbi Fitbit alkalmazást a vadonatúj Google Healthre Androidon és iOS-en is...

szerda 17:23

A Bitcoin a 75 ezer dolláros támaszba kapaszkodik: visszatér a medvepiac?

📈 Mélységi hullámvasúton halad a kriptopiac: a Bitcoin az elmúlt 24 órában a 27,2 millió forintos (75 000 USD) támaszszint környékén ingadozott, miután kedden nem sikerült áttörnie a 28,3 millió forintos (78 000 USD) ellenállást...

szerda 16:56

A hype-videókba öntik a pénzt az MI-startupok – miért?

💸 Egy különös jelenet játszódik Oakland egyik raktárában: Alice, a Kalapos és egy hatalmas nyúlfejet viselő férfi ül egy asztalnál egy fekete-fehér kockás padlón...

szerda 16:13

A shiitake átok: ostorcsapás-szerű kiütések egy nő hátán

🧃 Például egy 23 éves floridai nő váratlanul élénkvörös, ostorcsapásra emlékeztető kiütéseket tapasztalt a hátán, amelyek két napon át makacsul viszkettek...

szerda 16:01

A dolláralapú stablecoinok ismét dominálják a kriptópiacot

💰 Az elmúlt hetekben a kriptopiacon ismét megfigyelhető a legnagyobb kriptovaluta háttérbe szorulása – életre kel az a piaci dinamika, amely idén év elején is felerősödött a jelentős piaci esés során...

szerda 15:57

A SoFi banki stabilcoinja 15 millió felhasználóhoz ér el

💰 Újabb fontos mérföldkőhöz érkezett a pénzügyi technológiai szektor: a SoFi pénzügyi alkalmazás egy amerikai nagybank támogatásával bevezette saját, dollárhoz kötött stabilcoinját, SoFiUSD néven...

szerda 15:45

A techóriások vagyonokat zsebelnek be adatainkból, az AI még többet

Amerikában egy átlagos internethasználó személyes adatai az elmúlt évtizedek során elképesztő vagyont jelentettek a technológiai vállalatoknak...

szerda 15:24

A földönkívüliek akaratlan rádiójelekkel árulják el magukat?

Erre utal többek között az, hogy már jóval az Apollo–11 holdraszállása előtt, amikor még tartottak attól, hogy az első holdkompot elnyeli a Hold poróceánja, a rádiócsillagászat révén sikerült igazolni: a Hold szilárd felszínű, és ezzel megnyílt az űrkutatás aranykora...

szerda 15:02

Az MI kevés: a vezérigazgatók 99%-a MI miatti leépítésre készül

Az MI radikális átalakulást hoz a munkahelyeken – a vállalatvezetők döntő többsége már most készül a dolgozók elbocsátására a következő néhány évben...

szerda 14:58

A RedMagic 11S Pro villámgyors, de ezt a filmet már láttuk

A RedMagic 11S Pro szemmel láthatóan a jelenleg egyik leggyorsabb telefon a piacon, különlegesen játékra szabott funkciókkal és kifejezetten erős hardverrel...