2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

csütörtök 18:01

Az igazi hobbitokkal egy ősi aszály végzett?

🧠 Fontos kérdés, hogy miért tűntek el a kis termetű, úgynevezett hobbitok, vagyis a Homo floresiensis az indonéziai Flores szigetéről...

csütörtök 17:58

A mesterséges intelligencia forradalmasítja a JioHotstar-keresést Indiában

India egyik legnagyobb médiavállalata, a Reliance, együttműködik az OpenAI-jal, hogy MI-alapú, beszélgetős keresést vezessen be a JioHotstar streamingszolgáltatásában...

csütörtök 17:39

Az Elder Scrolls 6 visszatér a régi, hamisítatlan Bethesda-hangulathoz

🏰 Érdemes megnézni, milyen irányt vesz a legendás Elder Scrolls-sorozat következő része, hiszen Todd Howard, a Bethesda vezetője a vártnál részletesebben beszélt a The Elder Scrolls 6 fejlesztéséről...

csütörtök 17:20

Az MI-nemzedék: Kik nyernek azon, hogy rettegsz az elbocsátástól?

💡 Az utóbbi időben egyre sűrűbben hallani, hogy az MI miatt hamarosan eltűnnek a munkahelyek, és hatalmas átrendeződés vár a munkaerőpiacra...

csütörtök 16:58

A kriptopiac padlón, a Bitcoin is vérzik

📈 Hadd ordítsam már bele a levegőbe, hogy ma teljes a letargia a kriptopiacon!..

csütörtök 16:39

A Bitdeer nagyot bukott – hűl a részvényesek kedve

💸 Nagyon nem indult jól a nap a Bitdeernek: a szingapúri bitcoin-bányász és AI-adatközpont-óriás közel 17%-ot zuhant, miután bejelentette, hogy 110 milliárd forint (kb...

csütörtök 16:20

Az egérapák titka: tényleg egy gén irányítja a gondoskodást?

Érdemes megérteni, hogy az emlősöknél ritkaságnak számít az apai gondoskodás: mindössze a hímek 3–5 százaléka neveli aktívan az utódait...

csütörtök 14:01

A Honeywell kamerabotránya felkavarja Kínát?

📸 Néhány Honeywell CCTV kamera egyszerűen ajtót nyit bárkinek, aki szeretné átnézni a felvételeket, vagy akár átvenni az irányítást a fiókok fölött...

csütörtök 13:59

Az MI-hullám: munka és pénz, vagy mindent elsöpör a káosz?

Az MI térnyerése nagyban átalakíthatja a munka világát, de nem minden forgatókönyv sötét...

csütörtök 13:39

Az MI véget vethet a ritkaföldfémek korszakának az e-autókban

🚗 A New Hampshire-i Egyetem kutatói olyan MI-alapú adatbázist hoztak létre, amely drámai módon felgyorsítja az új mágneses anyagok keresését...

csütörtök 13:21

Az óriás fák halála fenyegeti a perui Amazonas szénraktárait

🌲 A perui Amazonas őserdeiben találhatók a kontinens legnagyobb fái, amelyek messze több szenet tárolnak, mint kisebb társaik...

csütörtök 12:04

Az MI már mindenkinek jár – a céges rutin dönt

A vállalatok világa látszólag egyszerű: mindenki ugyanazokat az MI-modelleket használhatja, ugyanazokat az eszközöket és platformokat éri el...

csütörtök 11:59

Az e‑mail‑szerverek reneszánsza: újra a hackerek célkeresztjében

📧 A számítógépes bűnözők elképesztő gyorsasággal kezdik kihasználni a SmarterMail rendszer legújabb sebezhetőségeit...

APP
csütörtök 07:11

APPok, Amik Ingyenesek MA, 2/19

Fizetős iOS appok és játékok, amik ingyenesek a mai napon...

csütörtök 06:05

Történelmi események a mai napon (Február 19.)

Share on Social Media x facebookwhatsapptelegram

szerda 17:37

Az áttörő CRISPR-technika megállíthatja és visszafordíthatja az antibiotikum-rezisztenciát

A globális egészségügyet egyre súlyosabb veszély fenyegeti: az antibiotikumoknak ellenálló baktériumok miatt 2050-re évente akár 10 millió halálesetet is jósolnak...

szerda 17:20

Az AI-chipháború elszabadult: a Meta halmozza az Nvidia-GPU-kat

Na most kapaszkodj: a Meta hosszú távú szerződést kötött az Nvidiával, és évekig tonnaszámra vásárolja az Nvidia vadiúj Grace és Vera CPU-it, meg a Blackwell- és Rubin GPU-it a saját adatközpontjaihoz...

szerda 17:03

Az MI sosem gondolkodik igazán – veszélyes önámításban élünk?

🧐 Amikor valaki orvoshoz fordul, magától értetődőnek veszi, hogy a szakember már találkozott valódi testtel, tapasztalatokat szerzett, vizsgált szerveket, megkülönböztette a különböző fájdalomtípusokat...

szerda 16:55

Az olimpiai síalpinisták sikertitka: a VO2 max mindent visz

Nemcsak a profik számára fontos az, amit a 2026-os téli olimpián debütáló síalpinisták teste tud: a kiemelkedő állóképességi szint, amelyet egy mutató, a VO2 max mér...

szerda 16:38

Az okos otthonok áttörést hozhatnak a demenciagondozásban

Fontos kérdés, hogy az egyre fejlettebb digitális technológiák hogyan javíthatják az idősebbek életminőségét, különösen azokét, akik Alzheimer-kórral vagy más demenciával élnek...

szerda 16:19

Az Androidból száműzik az OpenVPN-t: megéri az új irány?

A Proton VPN androidos alkalmazása jelentősen átalakult: frissítés után a felhasználók gyorsabb, átláthatóbb felületet kapnak, ám az ikonikusnak számító OpenVPN-protokoll már nem elérhető...

szerda 16:02

Az ingatlanpiac forradalma: kezdődik a kriptóval fedezett hitelek kora

Az amerikai Milo óriási eredményt ért el: több mint 100 millió dollár (kb...

szerda 15:55

Az Anthropic új MI-je már a saját pusztulásától retteg

Az Anthropic frissítette Sonnet nevű MI-modelljét a 4.6-os verzióra, amely most jobban programoz, ügyesebben kezeli a számítógépes feladatokat, és fejlettebb következtetési, valamint tervezési képességekkel is rendelkezik...

szerda 15:37

Az Autopilot kivonul Kaliforniából, a Tesla lázasan takarít

Meglepetés, a Tesla már nem dobálózik az Autopilot névvel Kaliforniában, hogy elkerülje a csúnya 30 napos kitiltást...

szerda 15:19

Az ősi hányás, ami idősebb, mint a dinoszauruszok

🤢 Érdemes tudni, hogy egy németországi kövület nem mindennapi felfedezést rejt: egy 290 millió éves, megkövesedett hányásdarabkát – vagyis regurgitalitot – sikerült azonosítaniuk paleontológusoknak...

szerda 15:02

A humanoid robotok lélegzetelállító kungfu-showja Kínában

A 2026-os pekingi Tavaszünnepi Gálán különleges esemény zajlott: emberformájú robotok adtak elő teljesen autonóm harcművészeti műsort a holdújévi ünnepség keretében...

szerda 14:56

A mesterséges intelligencia félrevezette a beteget – így bukott le a Gemini

Egy nyugdíjas informatikus kísérleti céllal fordult a Google Geminihez: saját gyógyszerlistáját és egészségügyi adatait akarta rendszerezni, bízva abban, hogy a bot tárolja az ezekből összeállított orvosi profilt...

szerda 14:38

Az óriásláncok csatája: merre kormányozzák új vezérigazgatóik a Walmartot és a Targetet?

💲 Tipikus eset, amikor két óriási rivális egyszerre új vezetőhöz kerül, de teljesen eltérő pályán mozognak tovább...

szerda 14:18

A Bayer óriásalkuja: milliárdokat fizet a rákkeltő gyomirtóért

A Bayer megdöbbentő, 2600 milliárd forint (7,25 milliárd dollár) összegű egyezségre készül, hogy végre lezárja a Roundup nevű gyomirtó körül évek óta húzódó amerikai rákkártérítési pereket...