Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 13:33

A Meta bezárta három VR-stúdióját: vége egy újabb metaverzum-álomnak

💀 A Meta jelentős leépítéssel válaszolt a metaverzum üzletág problémáira, bezárva az Armature, a Sanzaru és a Twisted Pixel nevű VR stúdiókat...

MA 13:17

A bélflóra háborúja az erszényesekben: mikrobák a gyógyszerek ellen

🤿 A legújabb, 23 erszényes fajra kiterjedő kutatás jelentős újdonságokat hozott az őshonos ausztrál állatok bélrendszerének mikrobáiról...

MA 12:50

A jelszavaknál tényleg a méret számít?

Évek óta halljuk, hogy a hosszabb jelszó biztonságosabb. Rakj bele minél több karaktert, legyenek benne számok, szimbólumok, kis- és nagybetűk, és akkor már nagy gond nem lesz...

MA 12:34

Itt az Ammobia áttörése: olcsóbb, zöldebb műtrágya jön

🌱 Érdekes felvetés, hogy az ammónia, a világ egyik legfontosabb vegyszere, mindeddig kevés figyelmet kapott, pedig nélküle a mezőgazdaság gyakorlatilag működésképtelen lenne...

MA 12:01

Az amerikai bitcoin ETF-ek ismét rekordközelben száguldanak

📈 Az amerikai spot bitcoin ETF-ek három hónap óta a legerősebb napjukat zárták, 276 milliárd forint (750 millió dollár) friss tőke áramlott hozzájuk kedden...

MA 11:50

Az offshore szél nagy dobása: olcsóbb áram, vagy újabb viták?

🌀 A brit kormány történelmi mennyiségű új offshore szélerőmű-projektre adott ki szerződéseket, ezzel meghatározó lépést téve a tiszta energia irányába...

MA 11:34

Az olcsó Ubiquiti átjáró nagyító alatt: UXG‑Lite teszt

Az Ubiquiti UXG-Lite egy meglepően kompakt és energiatakarékos hálózati eszköz, amely ideális belépő az Ubiquiti ökoszisztémájába...

MA 11:17

A mesterséges intelligencia sötét oldala a vásárlásban: nő a trükközés

💸 A Google bejelentette új Univerzális Kereskedelmi Protokollját, amely lehetővé teszi, hogy a Gemini és más MI-alapú asszisztensek egyszerűsítsék az online vásárlást...

MA 11:01

A Galaxy S26 végre valódi áttörést hozhat

🚀 Újabb pletyka kering a hamarosan érkező Samsung Galaxy S26-ról, amely szerint végre érdemes lehet készülni a váltásra...

MA 10:57

Az amerikai kibocsátások ismét emelkednek – az MI a fő felelős?

🌎 Az Egyesült Államok üvegházhatású gázkibocsátása két év stabil csökkenés után idén újra növekedésnek indult, és jövőre várhatóan még magasabb lesz...

MA 10:52

A mesterséges intelligencia pontossága ugrásszerűen nő egy egyszerű trükkel

Az MI-modellek világában az utóbbi évek az egyre bonyolultabb kérdésfeltevési módszerek fejlesztésével teltek, hogy minél pontosabb válaszokat kapjunk...

MA 10:43

Az új memóriaválság alapjaiban rázza meg a PC-piacot

💡 Drágulás, szerényebb gépek: hosszú távú krízis a láthatáron Lényeges hangsúlyozni, hogy a memóriahiány, illetve az emiatt folyamatosan dráguló alkatrészek nyomán 2027 végéig tartó áremelkedésekre és visszafogottabb PC-felszereltségre számíthatunk...

MA 10:36

Az új Firefox 147: apró újítások, erősebb védelem

🚀 A Firefox 147-es verziója számos hasznos fejlesztéssel jelent meg. Az egyik legfontosabb újdonság, hogy mostantól támogatja a HTML dialogelemet, így a weboldalakon megjelenő felugró ablakok és párbeszédpanelek natívan jelenhetnek meg a böngészőben...

MA 10:29

Az ukrán hadseregre új, jótékonyságnak álcázott kibercsalás csap le

Október és december között az ukrán védelmi erők tagjait különleges, jótékonyságot színlelő kibertámadás érte, amelynek során a PluggyApe nevű, megtévesztő hátsóajtó-kártevőt próbálták telepíteni...

MA 10:24

Az MI-nek hála az energiaiparban is tarolnak az óriáscégek

A mesterséges intelligencia bevezetése óriási energiakeresletet indított el a tech világában, ezért a Big Tech-cégek most versenyt futnak az energiaszakemberekért...

MA 10:15

A rákbetegek 70 százaléka már öt évnél tovább él Amerikában

Az Egyesült Államokban drámai mértékben nőtt a daganatos betegek túlélési esélye: az American Cancer Society friss jelentése szerint a diagnózis után öt évvel még élők aránya elérte a 70 százalékot...

MA 10:08

Az XRP kilőtt – meddig tart a menetelés?

🚀 Az utóbbi napokban az XRP árfolyama 6%-os emelkedést mutatott, kiemelkedve az egyébként ingadozó kriptopiacon...

MA 10:01

Az új Windows-frissítések végleg lecserélik a lejáró Secure Boot-tanúsítványokat

🔒 A Microsoft automatikusan elkezdte lecserélni a hamarosan lejáró Secure Boot tanúsítványokat a jogosult Windows 11 24H2 és 25H2 rendszereken...

MA 09:58

Az áttörés: perelhetők a szexuális deepfake-ek készítői

👑 Az amerikai Szenátus elfogadta a DEFIANCE törvényjavaslatot, amely új eszközt adhat azok kezébe, akiket akaratuk ellenére kompromittáló, MI által generált képeken ábrázoltak...