2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 10:01

Az Anthropic új MI-je miatt pánikolnak a bankok

A Mythos névre keresztelt MI-modell bármelyik pénzintézet rémálma lehet: fejlett programozási képességeinek köszönhetően nemcsak felismeri a pénzügyi rendszerek gyenge pontjait, hanem meg is mutatja, hogyan lehet őket kihasználni...

MA 09:58

Az Apple élén váltás: Tim Cook helyét átveszi John Ternus

🚀 Az Apple jelentős bejelentést tett: szeptember 1-től John Ternus veszi át a vezérigazgatói posztot, Tim Cook pedig az igazgatótanács ügyvezető elnöke lesz...

MA 09:43

Az Apple következő vezére: ki váltja Tim Cookot?

Sorsfordító pillanat következik az Apple életében: szeptember 1-jén Tim Cook hivatalosan lemond vezérigazgatói posztjáról...

MA 09:36

A Google oldalsávjába érkezik a Gemini: így szörföz Ázsia

Na most kapaszkodj, mert a Google végre elhozta a Geminit a Chrome böngészőbe Ázsiában és a csendes-óceáni térségben is...

MA 09:22

Az új űrruha hiánya veszélybe sodorhatja a 2028-as holdraszállást

🚀 Az űrhajósok visszatérése a Holdra ismét veszélybe került: a NASA jelenleg nem rendelkezik megfelelő szkafanderrel, a fejlesztés pedig komoly csúszásban van...

MA 09:16

Az élet titkos receptje: baktériumok átírják az evolúció szabályait

🧠 A Föld első életformái, a kékeszöld baktériumok évmilliárdokkal ezelőtt nemcsak az oxigéndús légkör kialakításában voltak úttörők, hanem most úgy tűnik, az evolúció kreativitásáról is új történetet mesélnek...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/21

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Sight Words: Dolch Coach (iPhone/iPad)Ez a játék a Dolch Sight Words mind az öt szintjére épül, elősegítve az angol szavak gyors és pontos felismerését...

MA 09:11

A kvantumtámadások korára készül az XRP Ledger

Első pillantásra úgy tűnhetett, hogy a blokkláncok szinte feltörhetetlen biztonsága egy ideig még nem kérdőjelezhető meg, azonban a közelgő kvantumszámítógépes forradalom mindent megváltoztat...

MA 09:01

A Seiko USA-t feltörték: ügyféladatok kerültek a hackerekhez

🔒 Valami egészen váratlan fogadta a Seiko USA honlapjának látogatóit a hétvégén: egy „HACKED” feliratú oldal jelent meg, amely a megszokott sajtószoba tartalma helyett durva üzenettel és ultimátummal várta a mit sem sejtő nézelődőket...

MA 08:50

A kaliforniai túlélő méhek új esélyt adnak a beporzóknak

Vizsgálatok szerint egy dél-kaliforniai hibrid méhfaj természetes védelmet fejlesztett ki az egyik leghalálosabb méhpusztítóval szemben...

MA 08:43

Az űrbiznisz befuccsolt: csúfosan bukott a Blue Origin rakétája

A Blue Origin New Glenn rakétájának harmadik útját újabb mérföldkőnek szánták a kereskedelmi űrkilövések piacán, de a bemutatkozás nem alakult álomszerűen...

MA 08:36

A nagy rengés küszöbén? Japán újabb földrengéstől tart

🌈 Április 20-án, helyi idő szerint délután 4:53-kor 7,7-es erősségű földrengés rázta meg Japán legnagyobb szigetének, Honshūnak az északkeleti partvidékét...

MA 08:29

A Marsot ötven éve kísértő árnyék titka

👽 Az egyik marsi kráterben több mint fél évszázada egy titokzatos, sötét folt terjeszkedik, amelynek eredetére és növekedésére máig nincs egyértelmű magyarázat...

MA 08:22

Az észak-koreai hekkerek a közpénzekre hajtanak: ismét célpont a DeFi

Több mint 180 milliárd forintnyi kriptót szivattyúztak ki két DeFi-rendszerből, alig három hét alatt...

MA 08:15

Az Arbitrum 71 millió dollárt fagyasztott be a Kelp DAO-botrány után

Az Arbitrum biztonsági tanácsa váratlanul lépett: 30 766 ETH-t, vagyis körülbelül 71 millió dollárt (26 milliárd forintot) fagyasztott be, miután hackerek szombaton 292 millió dolláros (108 milliárd forintos) kárt okoztak a Kelp DAO hídján...

MA 07:50

A pofonegyszerű trükk, ami forradalmasíthatja a génterápiát

🚀 A lipid nanopartikulumok (LNP) az elmúlt években robbantak be a köztudatba a COVID–19 elleni mRNS-vakcinák révén...

MA 07:43

A Gentlemen botnetekkel indít újabb ransomware-hullámot

🚨 Egyre kiterjedtebb botnethálózatot használnak a Gentlemen zsarolóvírus mögött álló szervezett bűnözői csoportok a legújabb támadási hullámokban: a SystemBC nevű proxy kártevővel világszerte több mint 1 570 vállalati rendszert sikerült megfertőzniük...

MA 07:36

Az új trükk, amivel a termeszek saját sírjukat ássák

Az UC Riverside kutatóinak sikerült jelentősen növelniük a nyugati szárazfa-termesz irtásának hatékonyságát, méghozzá egy váratlanul egyszerű módszerrel...

MA 07:29

A Föld örökre bevésődik az űrhajósok agyába

Ez a jelenség jól illusztrálható azzal, hogy az űrhajósok több hónapnyi súlytalanságban töltött idő után is úgy fogják meg a tárgyakat, mintha azok ugyanolyan nehezek lennének, mint a Földön...

MA 07:22

Az Amazon beszáll az MI-versenybe: dollármilliárdok az Anthropicnak

🚀 Komolyan mondom: az Amazon tényleg beáll a mesterségesintelligencia-őrület élére! Most újabb, közel 1 800 milliárd forintos, azaz akár 25 milliárd dolláros befektetést önt az Anthropic nevű MI-cégbe — és ez még csak a harmadik masszív pénzeső eddig...

MA 07:15

Az Apple kínai App Store-ját ellepték a kriptotolvaj appok

Kínában rejtett támadás érte az Apple App Store-t: 26 hamis alkalmazás jelent meg, amelyek népszerű kriptopénztárcáknak, például a MetaMasknak, a Coinbase-nek, a Trust Walletnek és a OneKeynek álcázták magukat...

MA 07:09

Az Anthropic titokban módosítja a böngészőidet a Claude Desktop telepítésekor

🕵 Az Anthropic Claude Desktop alkalmazása egy eddig példa nélküli, rejtett trükköt alkalmaz a számítógépeken: azonnal telepít egy engedélyező fájlt, amely még olyan böngészőkhöz is beállításokat hoz létre, amelyek nincsenek is telepítve az eszközön...

MA 07:01

Az észak-koreai hackerek 105 milliárdos káoszt szabadítottak el a KelpDAO-nál

💥 Április 18-án közel 105 milliárd forintnak megfelelő, 293 millió dollár értékű kriptoeszközt loptak el a KelpDAO-ból...

MA 06:57

A Google új csodája: kérésre az arcodat is megszépíti

💬 Ha eddig nem mertél megosztani egy képet sem a bőrhibáid miatt, mostantól ez sem lehet akadály...

MA 06:50

A vég kezdete: lekapcsolták a Voyager–1 egyik műszerét

Majdnem ötven éve indult útnak az ikonikus Voyager 1 űrszonda, amely a külső Naprendszer felfedezésére indult, ma már azonban élete végső szakaszához érkezett...

MA 06:43

Az elfeledett vitamin, ami leszámolhat a rákos sejtekkel

A tumorsejtek hírhedtek arról, hogy különösen nagy szükségük van a glutamin nevű aminosavra, azonban amikor kifogynak belőle, sokuk képes más tápanyagokra átállni...

MA 06:36

A legújabb csapda: segítségkérésnek álcázott támadás a Microsoft Teamsben

⚠ Érdekes felvetés, hogy a hackerek egyre kifinomultabban használják a Microsoft Teams rendszert, hogy bejussanak vállalati rendszerekbe...

MA 06:22

A Gemini végre megérkezett a Chrome-ba az ázsiai–csendes-óceáni térségben

🌎 Megérkezett egy új, menő Chrome-oldalsáv, aminek köszönhetően mostantól bármelyik böngészőfülön cseveghetsz a Gemini-vel – és igen, használhatod asztali gépen vagy akár iPhone-odon is, szinte mindenhol ezen a kontinensen...

MA 06:15

A világegyetem eddigi legnagyobb 3D-térképe: robotkarok, sötét energia, galaxisok

Öt évnyi munka eredményeként csillagászok megalkották az eddigi legnagyobb, nagy felbontású 3D térképet az univerzumról, amelyben több tízmillió galaxist követtek nyomon...