2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 16:40

Az új Mullvad WireGuard: végre valódi védelmet kapnak a felhasználók?

🔒 A Mullvad VPN saját WireGuard-protokolljának, a GotaTunnak független biztonsági auditja semmilyen jelentős sebezhetőséget nem talált, így a felhasználók most már fellélegezhetnek...

MA 16:21

Az új Galaxy S26 Ultra drágább, mégis tele felesleges appokkal

💸 A Galaxy S26 Ultra bemutatásával a Samsung ismét a prémium kategóriát célozta meg, az alapváltozat ára 475 ezer forintról indul...

MA 13:59

A bukás, csalás és leleplezés nyomában: FBI-tól a hackerekig

🕵 Az utóbbi napokban az FBI kibervédelmi rendszereiben olyan behatolást fedeztek fel, amely a drótlehallgatáshoz és a megfigyeléshez köthető hálózatokat érintette...

MA 13:39

Az egyszerű matektrükk, ami leleplezi, milyen jó problémamegoldó vagy

Például: 29 + 14. Valaki leírja egymás alá a számokat, összeadja az egyeseket, átvisz, majd összeadja a tízeseket, így kijön a 43...

MA 13:21

Az európai őslakosok nem tűntek el: a nők adták tovább a földművelést

Tipikus eset, amikor a múltunkat egy-egy váratlan felfedezés teljesen új megvilágításba helyezi...

MA 11:40

Az űrgazdaság lázban: új ETF a SpaceX tőzsdei bevezetése előtt

Az amerikai Roundhill Investments egyre népszerűbb tematikus alapjairól ismert: sportfogadás, fogyókúrás gyógyszerek, önvezető autók és a metaverzum – mind külön tőzsdén kereskedett alapban (ETF) futnak náluk...

MA 11:01

Az MI nem ember – két per kemény tanulságai

Az elmúlt hetekben két amerikai bírósági ügyben is kimondták, hogy az MI-botok nem tekinthetők emberi lényeknek...

MA 10:54

Az Apple láthatatlan dizájnzsenije: Steve Lemay

💻 Szóval van egy arc az Apple-nél, Steve Lemay, aki konkrétan irányítja, hogy mit és hogyan érintgetsz az iPhone-odon vagy az Apple Watchodon...

MA 10:38

Az MI-láz tetőzik: az Nscale már 5400 milliárdot ér

Az Nscale nevű brit startup mindössze egy év alatt kulcsszereplővé vált az MI-infrastruktúra piacán, miután újabb 2 milliárd dollár, vagyis közel 720 milliárd forint forrást vont be...

MA 10:29

Az üzemanyagár-horror visszatér: jön az újabb történelmi csúcs?

🚗 Az autósok Amerikában újabb, még súlyosabb üzemanyagáremelkedésre készülhetnek, ahogy az olajárak példátlan ugrást produkáltak egyik napról a másikra...

MA 10:21

A hosszú karú törpedínó átírja a mini őshüllők történetét

Különös dinoszauruszcsontváz került elő Argentínából: az Alnashetri cerropoliciensis nevű, alig 700 grammos állat megdönti a korábbi elméleteket a miniatűr, rovarevő őshüllők fejlődéséről...

MA 09:56

Az infláció hároméves csúcson Kínában – kifullad-e a lendület?

Felmerül a kérdés, mennyire változik Kínában a fogyasztói árak helyzete, miután februárban az infláció nagyobb mértékű növekedést mutatott, mint bármikor az elmúlt három évben...

MA 09:47

Az emberi agysejtek most már Doomot is játszanak

Egy ausztrál cég, a Cortical Labs, sikeresen összekötött nagyjából 200 ezer élő emberi agysejtet egy szilíciumlapkával, hogy azok elboldoguljanak a legendás Doom játékban...

MA 09:20

Az ősi élet nyomai a legváratlanabb helyen kerültek elő

Marokkó mélyén, a Közép-Atlasz hegyvonulataiban egészen különös felfedezésre bukkantak a kutatók...

MA 09:10

A mesterséges intelligencia az észak-koreai hekkerek új csodafegyvere

🛡 Érdemes megvizsgálni, hogy napjainkban az MI-ügynökök jelentősen megkönnyítik a kiberbűnözők és állami hekkerek dolgát...

MA 09:01

Az olaj kilő, a Bitcoin szakad – Mi történik?

Nem hiszem el, de a hétvégi hírek még mindig semmi békülésről nem szólnak az iráni fronton, úgyhogy az olajpiac teljesen bepörgött...

MA 08:46

A Kansas City repülőtéren: rövid pánik, aztán minden a régi

Nem mindennapi vasárnapja volt a Kansas City Nemzetközi Repülőtérnek: órákra kiürítették a terminált egy vélt fenyegetés miatt...

MA 08:37

A grafén ihlette a mágnesek új korszakát

💡 A kétdimenziós anyagok különleges elektronikai és mágneses tulajdonságaik miatt komoly figyelmet kapnak, hiszen ezek a jövő technológiáit is forradalmasíthatják...

MA 08:29

Az Einstein-féle téridő mégsem úgy hajlik, ahogy hittük?

🤔 A modern fizika két legfontosabb elméletének, a kvantumelméletnek és az általános relativitáselméletnek az összeegyeztetése régóta várat magára...

MA 08:19

A Bitcoin tovább szakad: közeleg az amerikai tőzsdepánik?

A Bitcoin ára egyelőre stabilan 67 000 dollár (kb. 24,3 millió Ft) körül mozog, miközben a világ tőzsdéin komoly eladási hullámok indultak, az olaj ára meghaladta a 100 dollárt (36 ezer Ft) hordónként, és az USA-dollár egy éve nem látott erősödést produkált...

MA 08:01

Az agyszkennelés felfedi, mit művel a ketamin a depresszióval

A depresszió világszerte az egyik vezető egészségügyi probléma, nem véletlen, hogy az érintettek mintegy 30 százaléka a hagyományos antidepresszánsokra sem reagál...

MA 07:55

Az ázsiai tőzsdéket csak részben hűti le az olajárzuhanás

📈 Dél-Koreában a Kospi index hétfő délelőtt négy napon belül másodszor aktiválta a kereskedést felfüggesztő automatizmust, amikor a piac több mint 8 százalékot zuhant, miután az olajár hordónként közel 120 dollárig (kb...

MA 07:37

A gyermekkori elhízás mögött gyakran a szülők stressze áll

👶 Miközben a gyermekkori elhízás továbbra is riasztó ütemben terjed: 2024-ben az USA-ban minden ötödik gyerek és kamasz túlsúlyos lett...

MA 07:28

Az EU odacsap: a bankoknak azonnal kártalanítaniuk kell az adathalászat áldozatait

Az Európai Unió Bíróságának főtanácsnoka, Athanasios Rantos szerint a pénzintézeteknek haladéktalanul vissza kell téríteniük azokat a számlatulajdonosokat, akik jogosulatlan tranzakciók áldozatai lettek – akkor is, ha ebben részben saját hibájuk is közrejátszott...

MA 07:19

Az univerzum dübörög: megduplázódott a fekete lyuk–neutroncsillag ütközések száma

A Laser Interferometer Gravitational-Wave Observatory (LIGO) példátlan módon először a téridő hullámain keresztül érzékelte az ütköző fekete lyukakat...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 3/9

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Castle Zombiestein – 3D FPS (iPhone/iPad)A Zombiestein egy fizikára épülő akciójáték, melynek főhőse Yuri “Tarzan” Agron, az orosz Spetsnaz elit katonája...

MA 07:10

A nagy óceántakarítás: tényleg ez menti meg a klímát?

Bekeményítettünk a klímaváltozással szemben, de úgy néz ki, még mindig szorít a sarok, amibe magunkat festettük...

MA 07:01

A következő nagy dobás: 3D-nyomtatott iPhone és Apple Watch?

Na most kapaszkodj, mert az Apple tényleg azon dolgozik, hogy alumíniumból 3D-nyomtatott iPhone-okkal és Apple Watch-okkal hódítsa meg a világot...

MA 06:55

Az Apple megnyitja az Ultra-korszakot: jönnek a csúcskütyük

Úgy tűnik, az olcsó MacBook rövid időre lekerült a színről, mert az Apple most visszatér a luxuskategóriához...