Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.


Legfrissebb posztok

szombat 09:57

Az orosz télnél is halálosabb betegségek tizedelték meg Napóleon seregét

🔫 1812-ben Napóleon hatalmas sereggel – mintegy 500 000 katonával – rohanta meg Oroszországot...



MA 22:59

Az ős-szúnyog, amely átírhatja az evolúciót

🐛 Szinte hihetetlen leletre bukkantak német kutatók: a mianmari Kachin régióban talált borostyánban egy 99 millió éves szúnyoglárva rejtőzött megdöbbentően jó állapotban...

MA 22:30

Az új Fed-elnök: öt név maradt, Trump hamarosan dönt

Már csak öt jelölt maradt versenyben a Federal Reserve elnöki posztjáért Jerome Powell utódjaként, és Donald Trump bejelentette, hogy még az év vége előtt megnevezi az új vezetőt...

MA 22:01

Az Adobe új MI-eszközei átírják a képszerkesztést

Az Adobe bejelentette a Creative Cloud alkalmazáscsomag és a Firefly frissítéseit, amelyek látványosan leegyszerűsítik a fotók és videók szerkesztésének eddig pepecselős, időrabló műveleteit...



MA 21:30

A Közel-Kelet most a ritkafémekért küzd olaj helyett

💰 Jelentős, hogy a Közel-Kelet országai egyre aktívabban fektetnek a ritkafémek iparába, ezzel próbálva visszaszorítani Kínát a világ kritikus ásványainak piacán...

MA 21:00

Az ingatlanpiacon most jön az MI-zűrzavar korszaka

Képzeld el, hogy ingatlanhirdetéseket böngészel Franklinben, Tennessee-ben, amikor egy látványos videóba botlasz: tágas szobák, baldachinos ágy, borkimérés, habfürdő és egy mosolygó ingatlanközvetítő mutatja be az álomházadat meggyőző hangon...



MA 20:59

Véget ér a Twitter-korszak: így menekülhetsz a zárolástól

🔒 Hamarosan végleg eltűnik a Twitter, ugyanis november 10-től hivatalosan is nyugdíjba vonul a Twitter...



MA 20:30

MI-vel hamis számlákkal trükköznek – egyre több a lebukás

💸 A költségelszámolások régi trükkjei új szintre léptek a mesterséges intelligencia megjelenésével...

MA 20:00

A hamis számlák új hulláma: az MI átveri a cégeket

A dolgozók egyre gyakrabban használnak MI-t hamis költségelszámolások készítésére. Az OpenAI és a Google fejlettebb képgenerátorai jelentősen megkönnyítették a hamis bizonylatok gyártását, ami komoly fejtörést okoz a költségkezelő szoftvereket fejlesztő cégeknek...

MA 19:59

Az új Windows BSOD-frissítés most a memóriádat fürkészi

👀 A Microsoft hamarosan új funkcióval bővíti a Windows 11-et: minden egyes kellemetlen kék halál (BSOD) után emlékeztetni fog, hogy vizsgáld át a memóriád állapotát...

MA 19:31

Újragondolt Wikipédia, mesterséges intelligenciával kreatívan átdolgozva

Elon Musk friss projektje, a Grokipedia, elindult – és első pillantásra szinte összekeverhető a Wikipédiával...

MA 19:03

A Windows-frissítés biztonsági okból letiltja a fájlok előnézetét

A Microsoft októberi frissítésével jelentős változtatást vezetett be a Windows rendszerben: a File Explorer (korábbi nevén Windows Explorer) mostantól automatikusan letiltja az internetes forrásból letöltött fájlok előnézetét...



MA 18:59

Az ausztrál kráter, ami átírja a Föld történetét?

A Föld ősi múltja tele volt hatalmas ütközésekkel, amikor még a légkör sem tompította a becsapódásokat...

MA 18:30

Az elektromos autók akkumulátorai lassabban öregszenek, mint gondoltuk

Egy svéd használt autókereskedő több mint 1 300 elektromos és plug-in hibrid autó akkumulátorának állapotát vizsgálta meg, hogy kiderítse, mennyit veszítettek kapacitásukból az évek és a kilométerek során...



MA 18:01

Az MI forradalma az iskolákban: Haszon vagy zsákutca?

🧠 A generatív mesterséges intelligencia (MI) villámgyors terjedése alapjaiban alakítja át az oktatási rendszereket...



MA 17:59

Az új Grokipedia: Musk enciklopédiája nagyobb, elfogulatlanabb?

📚 Elon Musk új projektje, a Grok-motorral hajtott Grokipedia rövid leállást követően ismét elérhető online...

MA 17:31

Japán királyi pompában fogadta az amerikai elnököt

Donald Trump amerikai elnököt hétfőn rendkívüli ceremóniával fogadta Japán, ázsiai látogatásának következő állomásán...

MA 16:59

Az új Eufy biztonsági kamera: végre nincs havi díj!

🔒 A biztonsági kamerák világában igazi újdonsággal állt elő az Eufy: a vadonatúj, MI-alapú EufyCam C35 nemcsak mesterséges intelligenciával, színes éjjellátóval és arcfelismeréssel érkezik, hanem végre megszabadulhatsz a bosszantó havi előfizetési díjaktól is...



MA 16:30

Régi szer felfedezése segíthet a szuperbaktériumok ellen

Az antibiotikum-rezisztencia világszerte égető egészségügyi problémává vált, hiszen az évek során egyre kevesebb hatékony gyógyszer maradt a fertőzések leküzdésére...