Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

kedd 20:49

A Linux nagy áttörése: ugrásszerűen nő a Steam-játékosok száma

Novemberben a Linuxot használó játékosok aránya új rekordot ért el a Steamen: elérte a 3,2%-ot, ami 0,15%-os növekedést jelent az előző hónaphoz képest...

kedd 20:34

Az indiai Nagy Testvér mindent lát: nyilvántartanak minden okostelefont

👀 Megvizsgáljuk, hogyan tervezi India feltérképezni és nyilvántartani az ország összes okostelefonját, legyen szó új vagy használt készülékről...

kedd 20:16

Jön a szigor: felezik az ingyenes tanúsítványok érvényességét

A Let’s Encrypt bejelentette, hogy 2028-ig felére, azaz 90 napról 45 napra rövidíti a kibocsátott tanúsítványainak érvényességi idejét...

kedd 20:03

Az Amazon 36 millióért engedi személyre szabni a saját MI-modelleket

💰 Különösen említést érdemel, hogy az Amazon Web Services (AWS) mostantól lehetővé teszi a felhőalapú ügyfelek számára, hogy már a betanítási folyamat közben is testre szabják az MI-modelleket, saját adataikat beépítve...

kedd 19:34

A MI jövőjének kulcsa az igazság, a szépség és a kíváncsiság?

Elon Musk ismét figyelmeztetett az MI jelentette veszélyekre, kiemelve, hogy a technológia gyors fejlődése miatt a jövő nem feltétlenül lesz pozitív...

kedd 19:17

A Microsoft Defender összeomlása megbénította a fenyegetésvadászatot

🙁 Az elmúlt 10 órában részleges leállás bénította a Microsoft Defender XDR portált, több felhasználó számára elérhetetlenné téve a fenyegetésvadászatot és egyéb funkciókat...

kedd 19:01

A város minden épülete 3D-ben – itt az új térkép!

A Müncheni Műszaki Egyetem kutatói a GlobalBuildingAtlas nevű projektben először készítették el a Föld összes épületéről készült, nagyfelbontású 3D-térképét...

kedd 18:50

A menstruáció űrbeli forradalma: új megoldások hosszú küldetéseken

Az űrutazás emberi kihívásai túlmutatnak a technológián: az alapvető testi folyamatokat is újra kell gondolni a Földtől távol, legyen szó étkezésről, alvásról, vagy éppen a menstruációról...

kedd 18:34

Az új Steam Machine megtöri a Valve hardverátkát?

Első pillantásra úgy tűnt, hogy a Steam Machine 2015-ös bevezetésével a Valve végre megoldja a PC-s játékok legnagyobb gondjait...

kedd 18:17

Az év végi aduász: jön a Mortal Kombat 1 Game Passra

Decemberben a Game Pass kínálata igazi csemegéket tartogat. A legnagyobb durranás kétségtelenül a Mortal Kombat 1, amely december 10-től érhető el az Ultimate és Premium előfizetők számára...

kedd 18:01

A halott csillagok rejtélye: feltámadnak a fehér törpék?

💫 Az univerzum egyik legérdekesebb jelensége a fehér törpék világa: ezek a csillagmaradványok akkor születnek, amikor egy csillag már nem termel energiát magfúzió útján...

kedd 17:02

Az Antigravity bakija: eltűnt egy felhasználó teljes meghajtója

Külön említést érdemel, hogy egy újabb súlyos hiba miatt a Google Antigravity nevű MI-fejlesztőeszköze egy felhasználó teljes D: meghajtóját törölte, helyreállítási lehetőség nélkül...

kedd 16:50

A YouTube új deepfake-rendőre: áldás vagy átok?

A YouTube új arcfelismerő eszköze, amely a feltöltők biometrikus adatait használja fel az MI-alapú deepfake videók azonosítására, komoly aggodalmakat váltott ki szakértők és tartalomgyártók körében...

kedd 16:33

Az a merész jóslat, amely fél évszázadra formálta a chipeket

1964. december 2-án a San Francisco-öböl térségében egy szerény, szakmai találkozón Gordon Moore számítástechnikus letette a félvezetőipar alapjait: megszületett a ma már legendás Moore-törvény...

kedd 16:18

A Luma AI meghódítja Londont

Az amerikai Luma AI, amelynek értéke már meghaladja az 1 470 milliárd forintot, nagyszabású londoni terjeszkedést jelentett be...

kedd 16:01

Titkok a középkori angol seregről: 290 ezer sors online

Néhány éve még elképzelhetetlen volt, hogy bárki böngészhessen középkori angol katonák sorsaik között...

kedd 15:50

Az Oracle-hack után újabb adatlopás rázza meg a Pennsylvaniai Egyetemet

A Pennsylvaniai Egyetem nemrég jelentette be, hogy támadók érzékeny személyes adatokat loptak el az Oracle E-Business Suite szervereiről...

kedd 15:33

Az újabb csapás: Michael Burry szerint túlárazott a Tesla

Michael Burry, a híres befektető, aki a 2008-as nagy gazdasági válság idején shortolta az ingatlanpiacot, ezúttal a Teslát bírálja élesen...

kedd 15:17

Az új kvantumanyag átírhatja az űrtechnológia szabályait

A Kaliforniai Egyetem irvine-i campusán (UC Irvine) egy kutatócsoport olyan eddig ismeretlen kvantumállapotot fedezett fel, amely akkor jön létre, amikor az elektronok és a pozitív töltésű, ún...