Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

Top
hétfő 16:50

Egyetemet végzett milliárdosok – ki mit végzett?

A közvéleményben gyakran keringenek olyan történetek, amelyek a felsőoktatásból kimaradó vállalkozókról szólnak...

MA 14:49

Az év legszebb égi randevúja: együtt fénylik a Merkúr és a Vénusz

Kora reggel, november 25-én különleges látvány várja azokat, akik hajlandóak felkelni napkelte előtt: a kelet-délkeleti égbolton egymás mellett jelenik meg a nehezen megfigyelhető Merkúr, valamint a mindig feltűnő Vénusz...

MA 14:18

Az MI forradalmasítja a kutatást, de embert nem vált ki

🧠 A ChatGPT-5 megjelenésével a tudományos kutatás jelentős átalakuláson megy keresztül. A legfrissebb OpenAI-eredmények és külső szakértők tapasztalatai alapján a legújabb nagy nyelvi modell immár képes közreműködni a fekete lyukak fizikájától kezdve a ráksejtek elemzésén át a bonyolult matematikai problémák megoldásáig...

MA 14:02

A vikingek rejtélyes halotti rítusa: fésűkagyló a szájban

🧠 Közép-Norvégiában, egy tengerparti mezőn egy kilencedik századi viking nő sírját fedezték fel, amely meglepte a régészeket: a nő szájára két hatalmas fésűkagylót helyeztek...

MA 13:49

A pillanat, amikor Steve Jobs átírta a Pixar játékszabályait

Három évtizede került a mozikba a Játékháború (Toy Story), amely alapjaiban változtatta meg, ahogyan a világ az animációs filmekről gondolkodik...

MA 13:33

Az újabb babatápszer-botrány: botulizmusveszély a ByHeart termékeinél

👶 Megduplázódott a csecsemőbotulizmus-megbetegedések száma az Egyesült Államokban, miután a ByHeart saját vizsgálata is kimutatta a veszélyes Clostridium botulinum baktériumot a babatápszerében...

MA 13:17

Az űr igazi keményei: meglepő élőlények a végtelenben

A Földön kívüli élet lehetősége egyre kevésbé tűnik elképzelhetetlennek, hiszen napról napra bővül azoknak a földi fajoknak a listája, amelyek képesek túlélni a világűr zord körülményeit...

MA 12:33

A CERN-ben nyolcszoros tempóra kapcsolt az antihidrogén-gyártás

Fantasztikus áttörést ért el egy nemzetközi kutatócsoport a CERN-ben, köztük a Swansea-i Egyetem fizikusai: sikerült nyolcszor gyorsabban előállítani antihidrogén-atomokat, mint korábban...

MA 12:20

Az Olmo 3 forradalma: nyílt modellcsalád az MI-fejlesztésben

A nyílt nagy nyelvi modelleknél (LLM-eknél) gyakran csak a kész eredményt látjuk, de az egész fejlesztési folyamat elzárva marad...

MA 12:01

A mesterséges intelligencia, amely Elon Muskot istenként imádja

Az utóbbi napokban Grok, az X maximális igazságkeresésre programozott MI-chatbotja, egyre furcsábban rajong Elon Muskért...

MA 11:33

A Salesforce újabb botránya: ügyféladatokat loptak a Gainsighton át

⚠ A Salesforce belső vizsgálatot indított, miután ismeretlenek ügyféladatok ellopására használták fel a Gainsight nevű külső alkalmazást...

MA 11:18

Az oroszlánok titkos hangja: eddig ismeretlen hangot fedeztek fel

A tudósok mesterséges intelligencia segítségével több mint 3 000 afrikai oroszlánok hangfelvételeit vizsgálták meg, és meglepő felfedezésre jutottak: az állatok nemcsak a híres, torokból jövő, erőteljes ordítást használják, hanem létezik egy úgynevezett köztes ordítás is...

MA 11:02

A maja zsenialitás nyomában: így jósolták meg a napfogyatkozásokat

🔭 A maja civilizációban az égi jelenségek, köztük a nap- és holdfogyatkozások megfigyelése központi szerepet játszott...

MA 10:58

Az áttörés, amely új korszakot nyit a növénykeresztezésben

🌱 Miközben a tavaszi mezőket egyszerre szállja meg több tucat növényfaj virágpora, felmerül a kérdés: egy növény hogyan tudja pontosan eldönteni, melyik faj pollenjétől lesz termékeny, és melyiket utasítsa el?..

MA 10:50

A római falakon lógó levágott fejek hátborzongató célt szolgáltak

💀 Egy 2000 éves spanyol erőd romjai között a régészek egyetlen emberi koponyát találtak, amely drámai körülmények között került felszínre...

MA 10:37

A mesterséges intelligencia megtanít tanulni: megérkezett a Tanulómód

A ChatGPT legújabb fejlesztése, a Tanulómód (Study Mode), forradalmasíthatja a tanulást – és nemcsak diákoknak...

MA 10:29

Az újabb támadáshullám csap le a Palo Alto VPN-ekre

⚠ Az elmúlt napokban szokatlanul intenzív támadási hullám indult a Palo Alto Networks GlobalProtect VPN-belépési portáljai ellen, a szkennelések száma egyetlen nap alatt negyvenszeresére nőtt...

MA 10:15

Az év adatlopása sújtotta az olasz vasútóriást

🚂 Olaszország nemzeti vasúttársaságának, az FS Italiane Groupnak érzékeny adatai szivárogtak ki, miután egy hacker feltörte informatikai szolgáltatójuk, az Almaviva rendszerét...

MA 10:09

Az európai talaj mélyén lappangó láthatatlan méreg

A dániai Korsør egykor békés tengerparti település volt, ahol a tehenek nyugodtan legeltek, lakói pedig mit sem sejtettek arról, hogy életüket hamarosan örökre megváltoztatja egy láthatatlan veszély...