2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 07:15

Az idő visszafordítható? A kvantumfizika meglepő válasza

Mi lenne, ha az idő megfordulna, és az események visszafelé játszódnának le a legalapvetőbb szinten?..

MA 07:08

Az MI miatti leépítési hullám söpör végig a Wall Streeten

A nagy amerikai bankok látványos profitemelkedést értek el az idei év első negyedévében: a JPMorgan Chase, a Citi, a Bank of America, a Goldman Sachs, a Morgan Stanley és a Wells Fargo együtt 47 milliárd dolláros (kb...

MA 07:01

Az Ofcom nekimegy a Telegramnak és a tini chatoldalaknak

💥 Az Egyesült Királyság független kommunikációs hatósága, az Ofcom átfogó vizsgálatot indított a Telegram ellen, miután bizonyítékokat kapott arról, hogy a platform gyermekek szexuális bántalmazását ábrázoló anyagok (CSAM) terjesztésére szolgálhat...

MA 06:58

Az Atlanti-áramlat összeomolhat: Európára dermesztő jövő vár

Az Atlanti-óceán egyik legfontosabb áramlatrendszere, az úgynevezett Atlanti meridionális áramlási rendszer (AMOC) a Föld éghajlatának védőernyőjeként működik – egy óriási szállítószalag, amely az északi félteke felé szállítja a melegebb, déli vizeket, miközben a hideg vizeket dél felé szállítja...

MA 06:50

Az OpenClaw MI-kapuja 28 ezer gépet tesz egyszerre sebezhetővé

Az OpenClaw nevű MI-ügynök rohamosan terjed a hétköznapi munkafolyamatokban, de a biztonsági frissítések és óvintézkedések aligha tartják a lépést vele...

MA 06:43

Az Einstein-portrét fényből rajzoló kristály forradalmasíthatja az optikát

Az XPANCEO Emerging Technologies Research Center kutatói, a Nobel-díjas Konsztantyin Novoszjolov vezetésével, elképesztő optikai tulajdonságokat fedeztek fel az arzén-triszulfid (As2S3) kristályos félvezetőben...

MA 06:37

Az eltűnt űr- és atomkutatók: valami sötét készül a háttérben?

Majdnem egy tucat, űr- és nukleáris védelmi kutatásokhoz kapcsolódó amerikai tudós tűnt el, vagy halt meg gyanús körülmények között 2022 óta...

MA 06:29

Az adathalászok lecsaptak: óriási adatlopás a francia okmányirodánál

🔒 Franciaország egyik legfontosabb kormányzati ügynöksége, a France Titres (Agence nationale des titres sécurisés, ANTS) érzékeny adatszivárgást szenvedett el, miután hackertámadást hajtottak végre, és állampolgári adatokat loptak el...

MA 06:22

A Mac gépek új réme: a ClickFix jelszavakat és kriptót lop

🔒 A friss, ClickFix nevű támadási hullám célkeresztjében az ázsiai pénzügyi szektor dolgozói állnak, akik macOS-gépeket használnak...

MA 06:15

A YouTube lecsap a celeb deepfake-ekre – eltünteti az álarcokat

🕵 A generatív mesterséges intelligencia fantasztikus dolgokra képes, de pofátlanul ellophatja az ismert emberek arcát és hangját is...

MA 06:05

Történelmi események a mai napon (Április 22.)

Ma több korszakos fordulópont találkozott: Adolf Hitler a Führerbunkerben beismerte a vereséget, a világ pedig megélte a helikopterek első harci bevetését és az első szóló, megállás nélküli föld körüli vitorlázást...

MA 06:01

Az újabb SD-WAN-sebezhetőség a hackerek célkeresztjében

Az amerikai kibervédelmi hivatal, a CISA négy napot adott az állami szervezeteknek rendszereik befoltozására egy újabb, a támadók által már aktívan kihasznált SD-WAN Manager sebezhetőség miatt...

kedd 21:46

Az Opendoor visszatér: MI-lendület és tőzsdei rali a lakáspiacon

💰 Az Opendoor Technologies részvénye 11%-ot emelkedett egyetlen nap alatt, ahogy a cég egy merőben új útra lépett: most már teljesen MI-alapú, integrált lakáspiaci platformként pozicionálja magát...

kedd 21:35

Az MI végre átírja az értékesítés szabályait?

Érdemes megvizsgálni, miért haladt el az MI már rég az IT-szakemberek mellett, miközben az értékesítésben még mindig adatszigetek, kézi CRM-bejegyzések és megérzésen alapuló riportok uralják a terepet...

kedd 21:23

Az FBI a titokzatos tudóseltűnések nyomában

Az FBI vizsgálatot indított legalább tíz tudós halálának és eltűnésének ügyében, akik kormányzati tudományos projektekhez, illetve érzékeny információkhoz férhettek hozzá...

kedd 21:01

Az otthoni Google Gemini végre ébresztőszó nélkül is ért téged

A Gemini for Home mostantól tényleg képes teljes beszélgetésekre, vagyis nem kell minden egyes alkalommal azzal kezdeni, hogy Hé, Google...

kedd 20:56

A parányi dinoszauruszkövületek két évtizeden át félrevezették a tudósokat

Csaknem két évtizeden át tartotta izgalomban és fejtörésben a kutatókat néhány különösen apró és szokatlan dinoszauruszcsontváz...

kedd 20:45

Az egyetem ára sokkol: 43 ezer dollárnyi diákhitel az elsőéveseknek

💸 Idén jelentősen nőhet a diploma megszerzése után rájuk háruló adósságterhe annak a közel egymillió fiatalnak, akik ősszel kezdik meg felsőfokú tanulmányaikat...

kedd 20:34

A kriptotőzsde az űrbe tör: érkeznek a SpaceX-tokenek

A Bitget tőzsde új lehetőséget nyit az átlagbefektetők előtt azzal, hogy elhozza a magáncégek – elsőként a SpaceX (SpaceX) – tőzsdei bevezetés előtti (pre-IPO) tokenjeit a Solana blokkláncon...

kedd 20:24

Az idő szorít: készülnek a NASA új holdruhái

Ez a jelenség jól illusztrálható azzal, hogy a NASA sikeres Artemis II-küldetése után minden szem azokra a technikai kihívásokra szegeződik, amelyek hátravanak az ember visszatéréséhez a Holdra...

kedd 20:01

Az Amazon árdrágítási botrányában felkavaró új részletek derültek ki

Kalifornia főügyésze, Rob Bonta egy új jogi beadványban hozta nyilvánosságra, hogy az Amazon a piaci pozícióját kihasználva több márkát is felszólított arra, hogy emeljék termékeik árát más kiskereskedőknél, például a Walmartnál vagy a Targetnél...

kedd 19:45

Az amerikai vásárlók csak csigalassan kapják meg a vámvisszatérítéseket

Az USA Legfelsőbb Bírósága februárban alkotmányellenesnek minősítette a Nemzetközi Sürgősségi Gazdasági Hatalmak Törvénye (IEEPA) alapján kivetett egyes vámokat...

kedd 19:35

Az új Apple-vezér: tovább él-e Jobs öröksége?

Tim Cook 15 év után átadja a vezérigazgatói posztot az Apple-nél...

kedd 19:25

A mesterséges intelligencia nélkül is térdre rogyunk előtte

🚀 Az elmúlt években a mesterséges intelligencia fejlesztése olyan sebességgel halad, hogy nehéz felfogni, az emberiség mindennapjai és jövője miként alakulhat át miatta...

kedd 19:14

A kódoló MI-ügynökök botrányos sebezhetőségei: hét fenyegetés, néma botrány

⚠ Jellemző példa erre, hogy egy biztonsági kutató egy GitHub pull request címébe rejtett rosszindulatú utasítás segítségével három különböző, MI-alapú kódolást segítő ügynökből – Anthropic Claude Code Security Review (GitHub Action), Google Gemini CLI Action és GitHub Copilot Agent (Microsoft) – egyszerre szedett ki szigorúan védett titkos adatokat...

kedd 19:02

Az Apple új vezérét példátlan kihívások várják

Tim Cook szeptemberben átadja az Apple irányítását John Ternusnak, akire várhatóan egy négybillió dollár értékű vállalat vezetése vár...

kedd 18:57

Az AES–128 még a kvantumgépeknek is ellenáll

🔒 Az utóbbi időszakban egyre élesebb fókuszba kerül, hogy a kvantumszámítógépek létezése később veszélybe sodorhatja a legfontosabb titkosítási eljárásokat világszerte...

kedd 18:45

A kínai villámakkuval 7 perc alatt teljesen feltölt az autód

A kínai elektromos autóipar újabb mérföldkövet ért el: a CATL bemutatta harmadik generációs Shenxing lítium-vasfoszfát akkumulátorát, amely szinte hihetetlen gyorstöltési képességet kínál...

kedd 18:23

Az Apple új ura: Tim Cook átadja a stafétát – ki ő?

Tim Cook, aki tizenöt évig vezette az Apple-t, most elengedi a gyeplőt, és szeptembertől az igazgatótanács elnöke lesz...