Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 16:34

Az igazi sokk: távozik Buffett befektetési jobbkeze

💸 Warren Buffett, a Berkshire Hathaway legendás vezére idén visszavonul, ennek előkészítéseként jelentős átalakításokat hajt végre a cégnél...

MA 16:18

A Tejútrendszer nem ütközésből született: kettős kémiai lenyomat árulkodik

🌌 Rejtélyes kémiai mintázatok bukkantak fel a Tejútrendszer csillagai között: két jól elkülöníthető csillagcsoport létezik, amelyek vas- és magnéziumtartalma jelentősen eltér...

MA 15:34

Az oroszok megint szigorítanak: tiltólistára kerül a FaceTime

Az orosz hatóságok újabb szintre emelték az online kommunikáció ellenőrzését: csütörtökön bejelentették, hogy korlátozzák az Apple videóhívó szolgáltatását, a FaceTime-ot...

MA 15:18

Az MI-böngészők tiltólistán: veszélyben az adataink

Egyre több szervezet kerül szembe az úgynevezett ügynökjellegű böngészőkkel, amelyek már messze túlmutatnak a megszokott böngészési élményen...

MA 15:02

A szárazság végezhetett az igazi hobbitokkal

🧙 A Homo floresiensis, ismertebb nevén a hobbit, egy kis termetű, ősi emberfaj képviselője, amely körülbelül 50 ezer évvel ezelőtt tűnt el a Föld színéről...

MA 14:49

A tűzoltás hanggal: víz nélkül is legyőzi a lángokat?

A heves erdőtűz gyorsan terjed a száraz bokrok között, és megközelíti a házakat, de az egyik otthon makacsul ellenáll a lángoknak...

MA 14:34

A Tesla új frissítése: túrázz a Mikulással, MI-vel

Megérkezett a Tesla 2025-ös ünnepi frissítése, amely minden eddiginél több újdonságot ígér...

MA 14:17

Az első olvadéksó-üzemanyag forradalmasítja az atomreaktorokat

Az amerikai Idaho Nemzeti Laboratórium előállította a világ első kloridalapú, olvadt sóból készült üzemanyagát gyorsreaktorokhoz...

MA 14:02

Az éghajlati válság házhoz jön – és végre észbe kapunk

🏖 A kommunikáció apró módosítása, például ha megemlítik a lakóhelyedet egy figyelmeztetésben, drámai módon növelheti a felkészülési hajlandóságot a természeti katasztrófákkal szemben...

MA 13:49

A Hold ma éjjel: mit látsz az égen?

🌕 December 8-án a Hold a holdciklus 18. napján jár, vagyis fogyó domború fázisában figyelhetjük meg...

MA 13:33

Az első kínai újrafelhasználható rakéta felrobban – az Ethernet mégis repült

A kínai LandSpace űripari vállalat a múlt héten indította el Kína első újrafelhasználható rakétáját, a Zhuque-3 Y1-et, amely ugyan sikeresen eljuttatta második fokozatát a kijelölt pályára, de irányított visszatérése során felrobbant...

MA 13:17

Az ünnepi frissítés hóvihart hoz a Battlefield 6-ba

december 9-én érkezik a Battlefield 6 legújabb, 1.1.3.0-s frissítése, amely az ünnepi időszakot egy vadonatúj, hó borította Empire State pályaváltozattal indítja...

MA 13:02

Valóban megállíthatatlanok az önvezető autók?

Az elmúlt hetekben újabb önvezető járművekkel kapcsolatos fejlemények láttak napvilágot: egyre több városban indulnak vagy terveznek robotaxi-szolgáltatásokat...

MA 12:49

Az Airbus A320 rejtélye: tényleg kozmikus eredetű a hiba?

Felmerül a kérdés, okozhatta-e a kozmikus sugárzás azt a hibát, amely sürgősségi szoftverfrissítéshez és a repülő váratlan magasságvesztéséhez vezetett...

MA 12:33

A PS5 tarolt az idei Black Fridayen

A játékosok idén sem tétlenkedtek Black Friday alatt, a konzoleladások látványosan megugrottak...

MA 12:18

A titokzatos Aska-medál: az egyetlen várandós viking nő

🔭 A svéd Aska településen, egy 10. századi elit nő sírjában bukkantak rá az Aska-medálra, mely az egyetlen ismert ábrázolás egy várandós viking nőről...

MA 12:02

Az MI-aranyláz nyertesei: chipgyártók és energiacégek aratják le a hasznot

💰 A BlackRock ázsiai–csendes-óceáni befektetési vezetője, Ben Powell szerint az MI-infrastruktúrába áramló tőke még messze nem érte el a csúcsát – sőt, még csak most jön a java...

MA 11:49

Az élő shopping vitte a prímet Black Fridayen

Idén a Black Friday alkalmával az élő vásárlási alkalmazások soha nem látott sikert arattak...

MA 11:33

Az elpazarolt hőből áram lesz: jön az energiaforradalom?

A világnak egyre több energiára van szüksége, miközben rengeteg energia hő formájában egyszerűen elvész az ipari folyamatok során...