2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 18:01

A Honor berobbant: érkezik az első humanoid robotja – hihetetlen!

Nem hiszem el, de a Honor, amiről eddig főleg menő mobiljai miatt beszéltünk, most egészen más szintre emelte a tétet...

MA 17:39

Az amerikai kormány riadót fúj: új sebezhetőség a Roundcube-ban

⚠ Érdemes megvizsgálni, hogy két, nemrégiben kijavított Roundcube Webmail-sebezhetőséget most aktívan kihasználnak támadások során...

MA 17:21

Az egyszerű vérteszt évekkel előre leleplezheti az Alzheimer-kórt

Egy új típusú vérvizsgálat forradalmasíthatja az Alzheimer-kór korai felismerését. Egyetlen vérvétel alapján már évekkel az első emlékezetkiesés előtt megjósolható, mikor jelentkeznek a betegség első tünetei...

MA 17:01

Az újratervezett Nothing Phone 4A: fények, amelyek elszabadulnak

💡 A Nothing tényleg nem bírta ki, hogy ne kürtölje világgá az új Phone 4A-t – most megmutatta a mobil hátlapját, és hú, ez most igazán látványos!..

MA 16:58

Az óriási kozmikus hóemberek rejtélyei a Naprendszer peremén

Megemlíthető továbbá, hogy a Neptunuszon túli térségek rejtélyes, különös formájú égitestjei évtizedek óta foglalkoztatják a csillagászokat...

MA 16:39

A Nothing Phone 4a-ról lehullt a lepel

Lényeges, hogy a Nothing Phone 4a formatervét már hivatalosan is nyilvánosságra hozták, még a március 5-i bemutató előtt...

MA 14:03

A bérlők kedvenc lakásriasztói 2026-ban: fúrás nélkül, percek alatt

A lakásbérlők gyakran érzik magukat sebezhetőnek, amikor otthonuk védelméről van szó, hiszen a hagyományos rendszerek bonyolult telepítést és maradandó változtatásokat igényelnek...

MA 13:58

Az északkeleti vihar felborítja a gázpiacot, és lebénítja New Yorkot

Az USA északkeleti részét hatalmas, késő téli vihar sújtja, amely több mint 35 millió embert érint, és tömeges áramkimaradásokhoz vezetett...

MA 13:20

Az újabb PayPal-baki: fél évig folyt az adatszivárgás

Egy egyszerű programozási hiba miatt hónapokon át bárki hozzáférhetett a PayPal Working Capital alkalmazás üzleti felhasználóinak személyes adataihoz...

MA 12:02

Az MI-őrület adósságcsapdába löki a techóriásokat

Az elmúlt hónapokban a vezető technológiai vállalatok soha nem látott mértékben növelték MI-vel kapcsolatos beruházásaikat, ám egyre gyakrabban fordulnak hitelpiacokhoz a finanszírozáshoz, ahelyett, hogy saját készpénzállományukból fedeznék a kiadásokat...

MA 11:59

Az MI forradalma elsodorja a tartalomgyártás régi szabályait

🤖 Az internetes tartalomgyártókra és a mögöttük álló üzleti modellekre sosem nehezedett ekkora nyomás: a YouTube-sztár MrBeast épp perel, és közben a TikTok anyavállalatánál, a ByteDance-nél is forrnak az indulatok az új Seedance 2...

MA 11:39

Az amerikai magánszféra válságban – hol maradnak az új törvények?

🔒 A hetvenes évek elején még elképzelhetetlen volt, mekkora fenyegetést jelenthetnek a digitális rendszerek a magánéletünkre...

MA 11:21

Az adatszivárgás, amely 1,2 millió francia bankszámlát sodort veszélybe

💳 Franciaországban ismeretlen támadó behatolt a francia állami adatbázisba, amely az összes banki számlát tartalmazza, és 1,2 millió bankszámla személyes adatait szerezte meg...

MA 10:56

Az otthoni genetikai tesztek csábító ígéretei és kockázatos buktatói

🔍 Az elmúlt évtized ugrásszerű fejlődést hozott az emberi genetika terén, miközben egyre több genetikai technológia lépett ki a laboratóriumokból, és vált elérhetővé a fogyasztók számára is...

MA 10:46

Az új Galaxy S26 Ultra brutális drágulása: ki ússza meg?

💸 Vásárlók milliói várják, hogy végre bemutatkozzon a Samsung legújabb zászlóshajója, a Galaxy S26 széria...

MA 10:30

Az amerikai támogatásmegvonás padlóra küldi a tudományos újságírást

2025 júniusában hatalmas visszhangot keltő oknyomozó riport buktatta le az illegális fakitermelést, amely a védett kongói esőerdők fáit csempészte át Burundiba...

MA 10:19

A beszédfelismerés forradalma: megérkezett a Wispr Flow Androidra

🗩 A Wispr Flow diktálós alkalmazása végre Androidon is elérhető, miután már Macen, Windowsen és iOS-en is bizonyított...

MA 10:01

Az elektromos autók tényleg tisztítják a levegőt? Igen, bizony!

A hagyományos autókban elégetett fosszilis üzemanyagok nemcsak szén-dioxiddal, hanem nitrogén-dioxiddal (NO2) is telehintenek mindent, így megugrik az asztmás rohamok, a hörghurut, valamint a szív- és érrendszeri bajok kockázata...

MA 09:28

Az új Galaxy S26 Ultra: Amit görgetsz, most már csak te látod

A Galaxy S26 Ultra végre tényleg a magánéletünk védelmére áll, és erről már részletes videó is készült...

MA 09:19

Az oxigénzselé forradalmasíthatja a cukorbetegek sebgyógyulását

🧠 A gyógyíthatatlannak tűnő sebek kezelése életeket menthet — legalábbis ezt ígéri egy apró, oxigént kibocsátó gél, amely elősegítheti a legmakacsabb, nem gyógyuló sérülések gyógyulását...

MA 09:10

Az oroszok tényleg feltörték a Telegram titkosítását?

Érdemes megvizsgálni, hogy mi is áll a Telegramot érintő legújabb orosz vádak hátterében...

MA 09:01

A Föld közelében kel ki a kozmosz legfiatalabb köde

A Hubble űrtávcső lenyűgöző, új felvétele eddig sosem látott részletességgel tárja fel a Tojás-köd (Egg Nebula) titkait, amely a Földhöz legközelebbi és legfiatalabb pre-planetáris köd...

MA 08:56

A decentralizált MI térdre kényszeríti a techóriásokat

Óriási átrendeződés zajlik az MI világában, amely alapjaiban változtatja meg, hogyan dolgozunk, használjuk és értelmezzük az intelligens technológiákat...

MA 08:38

A hélium miatt ismét csúszik az Artemis II emberes Hold-küldetés

🚀 A várva várt Artemis II küldetés, amely több mint fél évszázad után először repítene űrhajósokat a Hold közelébe, újabb késést szenved el...

MA 08:28

Az egészséges szív ropogós titka: újra hódít a pekándió

Az elmúlt két évtized tudományos eredményei alapján úgy tűnik, a pekándió sokkal többet nyújthat a szívünknek, mint eddig hittük...

MA 08:20

Az MI-alapú kémiai motor berobbantja a gyógyszerkutatást

🚀 A tudományos világ új fejezethez érkezett: villámgyors kvantumkémiai program jelent meg, amellyel a bonyolult molekulák szimulációjának idejét hetekről percekre lehet rövidíteni...

MA 08:01

Az OpenAI okoshangszóróval és kamerával készül nagy dobásra

Többek között az Amazon Echo-hoz hasonló, kamerával felszerelt okoshangszóró lehet az OpenAI első saját ChatGPT-eszköze...

MA 07:56

Az emberi élettartam határa még beláthatatlanul messze van

👀 Az elmúlt másfél évszázadban a várható élettartam a leggazdagabb országokban folyamatosan nőtt...

MA 07:46

Az óriási triceratopsz orrszarva több volt, mint félelmetes dísz

A Triceratops hatalmas, háromszarvú feje a dinoszauruszok világának egyik legismertebb szimbóluma, de ez a lenyűgöző „páncél” különleges funkciót is betölthetett...