2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 20:34

Az igazi PlayStation-élmény PC-n: megérkezett a trükkös adapter

🎮 Végre elérhetővé vált a teljes PS5-ös DualSense-élmény PC-n is, anélkül, hogy kábelekkel kellene bajlódni...

MA 20:23

Az ellenőrzés szigorodik: a Polymarket Wall Street-szintre emeli szabályait

A Polymarket, a kriptoalapú jóslási piac radikális lépést tett: megállapodott a Chainalysis-szel, hogy valós időben figyeljék a kereskedéseket...

MA 20:12

Az új előrejelzési piac: a Gemini berobban az amerikai piacra

Az amerikai kriptopiacon hatalmas lendületet vett a verseny, miután a Winklevoss ikrek kriptotőzsdéje, a Gemini megszerezte a szükséges szövetségi engedélyeket a származékos és predikciós piaci tevékenységekhez...

MA 20:01

Az olajár háborús csúcson: ennyivel fizetünk többet a benzinért

🔥 A Brent nyersolaj hordónkénti ára csütörtökön elérte a 126 dollárt (kb...

MA 19:56

Az MI olcsón indul, de gigászi számlákat hoz

💸 Az MI térnyerése miatt egyre több vállalat helyezi át a hangsúlyt a kísérleti modellek fejlesztéséről a tényleges, mindennapos MI-alkalmazásokra...

MA 19:45

A fél internet veszélyben: kritikus cPanel-sebezhetőség

Az online világ egyik legfontosabb webszerver-kezelő eszközében olyan súlyos biztonsági hibát fedeztek fel, amely több tízmillió weboldalt fenyeget...

MA 19:24

Az AdGuard VPN Macen végre akadálymentesen használható

A legújabb, 2.9-es AdGuard VPN-frissítés a Mac-felhasználók jelentős csoportjának hoz igazán hasznos újítást: az alkalmazás most már akadálymentesen használható látássérült felhasználók számára is...

MA 19:12

Berobbant a stabilcoin-láz: bankok és fintech cégek a digitális pénzvonaton

💰 Mint minden valamirevaló krimi, ez is csendben kezdődött: az Anchorage Digital, az egyik legnagyobb amerikai digitális letétkezelő most az M0-ra (ejtsd: „em nullára”) bízta a stabilcoin-technológiájának fejlesztését...

MA 19:03

Az olcsó gamer fejhallgatók új királya? Glorious GHS Eternal teszt

🎧 A gamer fejhallgató választásánál mindig felmerül a dilemma: vezetékes vagy vezeték nélküli legyen a következő fülesem?..

MA 18:57

Az MI önjáró lett: a Writer kihívja a techóriásokat

Érdekes felvetés, hogy az MI-alapú vállalati rendszerek mennyire tudnak beavatkozás nélkül működni...

MA 18:45

Az igazi meglepetés: Ingyen kapod a Wasteland felújított kiadását, és működik!

Képzeld el, hogy egy váratlan hiba miatt teljesen ingyen be lehetett húzni a legendás Wasteland – Felújított kiadást (Wasteland Remastered) a Microsoft Store-ban...

MA 18:34

Az időjárás-jelentés, ahol a hőségnek ára van

🌡 Felmerül a kérdés, hogy hová vezet az, amikor a gazdasági szereplők végül mindent, még a hőmérsékletet is pénzre váltható eseménnyé tesznek...

MA 18:23

Az elszálló memóriaárak alaposan megterhelik a pénztárcákat

A fogyasztók egyre nehezebben jutnak hozzá megfizethető memóriához, miközben a félvezetőiparban hatalmas pénzek forognak...

MA 17:14

Az Olden Era több mint nosztalgia: a stratégák mennyországa

🗺 Felmerül a kérdés, hogy lehetséges-e valóban újat mondani a nagy klasszikusok után, vagy az új versenyzők örökké csak az elődök nyomdokában járnak majd...

MA 17:02

A bitcoin újra szárnyal: áttöri a 80 ezer dolláros határt?

🚀 A bitcoin ára ismét felfelé kúszik, de a 80 ezer dolláros (kb...

MA 16:56

Az Equalizer-kábel: csodaszer a videokártyád védelmére, vagy átverés?

🔧 A videokártyák túlmelegedése újabban mindennapos probléma, ami miatt a gyártók nem csatlakozócserével, hanem újfajta kábelekkel és tápegységekkel igyekeznek biztonságot nyújtani...

MA 16:45

Az új Chuwi ultrakönnyű laptopért mélyen a zsebbe kell nyúlni

💸 A Chuwi bemutatta legújabb ultrakönnyű laptopját, a CoreBook Air 226V-t, amely kevesebb mint 1 kg-ot nyom, és mindössze 10,9 mm vastag házba csomagolja a legújabb Intel Core Ultra 5 226V processzort, amely a Lunar Lake architektúrára épül...

MA 16:34

Tényleg a Polymarketen fogadnak az amerikai hadsereg emberei?

🤔 Az utóbbi időben feltűnően magas nyerési arányokat mértek a katonai és védelmi eseményekre kötött fogadásoknál a Polymarket platformján – messze túlszárnyalva a politikai fogadások átlagát...

MA 16:23

Az újabb DeFi-fiaskó: 1,7 milliárd forintot bukott a Wasabi Protocol

Felmerül a kérdés, hogy mikor lesz vége a decentralizált pénzügyek botrányhullámának, hiszen újabb, súlyos támadás rázta meg a piacot...

MA 16:12

A memóriaár-robbanás fékezi a Windows-eladásokat

A hardverpiacra már most komoly hatással van a globális memóriahiány, amely az előrejelzések szerint hamarosan érzékelhető lesz a Microsoft bevételeiben is...

MA 16:01

A valaha talált legnagyobb viking kincs Norvégiában került elő

Egy kelet-norvégiai farm földjében csaknem 3 000, különböző országokban – Angliában, Németországban, Dániában és Norvégiában – vert ezüstérmét tártak fel a régészek...

MA 15:56

A tartóssági rendszer az Arc Raidersben inkább büntet, mint szórakoztat

Az Arc Raiders világában a fegyverjavítás nem tartozik a játékosok kedvenc elfoglaltságai közé...

MA 15:47

A láthatatlan ügyfélszolgálat forradalma: az MI nagy áttörése

Megvizsgálandó, hogy a mesterséges intelligencia miként alakítja át a nagyvállalatok ügyfélszolgálati működését, és miért döntenek óriáscégek, mint az Accenture vagy az Adobe, úgy, hogy ilyen fejlesztések mögé sorakoznak fel...

MA 15:34

Végre fellélegezhetnek az ingyenes YouTube-felhasználók is

🎉 Hadd ordítsam bele a levegőbe, hogy eddig a kép a képben funkció a legtutibb YouTube-extrák közé tartozott, de csak azok élvezhették, akik fizettek érte...

MA 15:23

Az euró stabilcoin új korszaka: az AllUnity betör a Solanára

💶 A német AllUnity mostantól a Solana blokkláncon is elérhetővé tette saját, szabályozott, euróalapú tokenjét, az EURAU-t...

MA 15:14

Tényleg ez az első okos csillagásztávcső? Kipróbáltuk a ZWO Seestar S30 Pro-t

🔬 A ZWO Seestar S30 Pro új szintre emeli az amatőr csillagászatot: a könnyű, egykezes okostávcsővel már egy kertvárosi ház teraszáról is lélegzetelállító képeket lehet készíteni távoli galaxisokról vagy ködökről, akár kezdőként is...

MA 15:01

Az Xbox Japánban gyakorlatilag eltűnt – a boltok sem tartják

A japán játékfejlesztők nehéz helyzetbe kerültek: a kisebb stúdióknak nem éri meg Xboxra is fejleszteni, mivel a kereslet minimális, ráadásul a konzolt már a jelentősebb üzletek sem tartják készleten...

MA 14:57

Csodát tettek az anyaméhben: megmentették Cassian életét

Az orvosok szinte semmi esélyt sem láttak arra, hogy a súlyos tüdőrendellenességgel diagnosztizált magzat túlélje, de a szülők kitartó kérésére mertek vállalkozni egy egészen különleges beavatkozásra...

MA 14:34

Az új bitcoin-hónap: szezonális rali, de jönnek a buktatók

Ahogy április véget ér, a bitcoin árfolyama visszafogottabbá vált, mégis számos tényező okot adhat az optimizmusra májusra...