2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 12:01

Az Infosys az Anthropic-kal szövetkezik – veszélyben a munkahelyek?

Az indiai IT-piac óriása, az Infosys együttműködési megállapodást kötött az Anthropic MI-fejlesztő céggel, amelynek célja, hogy az úgynevezett agentikus MI-től új lendületet kapjon a távközlési és egyéb, erősen szabályozott iparágak digitalizációja világszerte...

MA 11:56

Megáll a mesterséges intelligencia diadalmenete? Miért torpannak meg a cégek

A vállalatok világszerte hatalmas összegeket fektetnek mesterséges intelligenciába, ám a várt eredmények gyakran elmaradnak...

MA 11:37

Az éghajlatváltozás soha nem látott erőre kapcsolja a spanyol áradásokat

🌊 2024 októberében a valenciai térséget olyan rendkívüli esőzések sújtották, amelyek néhány óra alatt több csapadékot zúdítottak a vidékre, mint amennyi máskor egy teljes év alatt esik...

MA 11:19

Az Abu-Dzabi milliárdosok zuhanásban is halmozták a bitcoint

💰 Az Abu-Dzabi állami befektetési alapok jelentős szereplői nem riadtak vissza a bitcoin 2025-ös árfolyamzuhanásától: a Mubadala Investment Company és az Al Warda Investments a negyedik negyedévben komoly mennyiséget vásároltak a BlackRock iShares Bitcoin Trust (IBIT) spot bitcoin ETF-jéből...

MA 10:58

Az MI-uralomért folyó háború: a Pentagon, az Anthropic és a Palantir

🛡 Érdemes megvizsgálni, hogyan került az Anthropic, a Pentagon és a Palantir különös háromszögébe a mesterséges intelligencia...

MA 10:50

A kínai hekkerek lecsaptak: kritikus Dell-hibát használnak ki

⚠ Külön említést érdemel, hogy 2024 közepe óta egy kínai államilag támogatott hackercsoport folyamatosan kihasználja a Dell egyik kritikus sebezhetőségét...

MA 10:41

Az idei Google I/O: rejtvények, mesterséges intelligencia és Android – kapaszkodj!

Képzeld el, hogy a Google ismét rejtvényen keresztül csempészte be a nagy hírt: május 19–20-án lesz a Google I/O 2026...

MA 10:25

Az este, amikor lefagyott a YouTube – mindenki kiakadt, aztán helyreállt

Oké, azt hiszed, hogy nincs is olyan, hogy totális YouTube-leállás – de b*szusz, közben meg világszerte százezrek szakadtak le a videókról!..

MA 10:17

Az év techfesztje közeleg: megvan a Google I/O 2026 dátuma

🎉 Nem hiszem el, de május 19–20. között végre jön a Google I/O 2026, ráadásul a kaliforniai Mountain View ikonikus Shoreline Amfiteátrumában...

MA 10:02

Az új GameHub Macre hozza a Windows-játékokat – nem hibátlanul

🎮 A GameSir legújabb bejelentése szerint a GameHub nevű Windows-emulációs eszköze hamarosan elérhető lesz a macOS-re is...

MA 09:49

Az alattomos agyagréteg tette pusztítóbbá a 2011-es japán cunamit

🌊 Egy új kutatás megvilágítja, hogy a 2011-es, rendkívül pusztító cunamit okozó Tóhoku-földrengésért a tengerfenéken megbúvó, vastag agyagréteg is felelős lehet...

MA 09:41

Az új Google-keresőben végre normális méretűek a linkek?

🔗 A Google most végre úgy döntött, hogy a mesterséges intelligenciával támogatott keresési eredményeiben jóval feltűnőbben jeleníti meg a linkeket...

MA 09:33

Az északi hó riasztó fogyását évtizedekig leplezték a műholdak

Évtizedeken át a tudósok az amerikai Nemzeti Óceán- és Légkörkutató Hivatal (NOAA) adatain alapozták a hóborítottság változásainak vizsgálatát az északi féltekén, különösen ősszel...

MA 09:25

A Stripe stabilcoinbankja zöld utat kapott Amerikában

Fontos kérdés, hogy mikor válik hivatalosan elérhetővé a Stripe új banki vállalkozása, amely most zöld utat kapott az USA felügyeleti szervétől, az OCC-tól...

MA 09:17

Az aranyáron dolgozó Covid-kárvizsgáló helyére új cég érkezik

💸 Majdnem 19 milliárd forintnyi közpénzt fizetett ki az NHS egy külsős cégnek, amely a Covid-oltások által okozott egészségkárosodással kapcsolatos igényeket vizsgálta...

MA 09:10

A kvantumkor átírja a komplexitáselmélet szabályait

⚡ A számítógéptudomány legmélyén minden az inputokról és outputokról szól. Egy zsebszámológépen akár két szám összeszorzásakor, akár egy szám prímtényezőire bontásakor tulajdonképpen binárisan kódolt bemenetekből hozunk létre – többnyire szintén bináris – kimeneteket...

MA 09:01

Az MI-háború új fejezete: a Meta Nvidia-chipekre vált

Fontos kérdés, hogy milyen technológiával lehet a leghatékonyabb MI-rendszereket működtetni. Hatalmas fordulat állt be az adatközpontok világában: a Meta, a Facebook anyacége, új szintre emeli együttműködését az Nvidiával, és elsők között, nagy léptékben vezeti be a cég saját CPU-it...

MA 08:59

A jelszókezelők valódi arca: mit látnak belőlünk valójában?

🔐 Az elmúlt másfél évtizedben a jelszókezelők néhány techrajongó eszközéből milliók által használt biztonsági alappillérré váltak...

MA 08:50

Az MI-csúcstalálkozók már csak a pénzről szólnak?

Az MI biztonságát érintő globális egyeztetések egykor egy visszafogott, politikai körhöz tartoztak egy angliai magánházban...

MA 08:42

Az USA és Japán 13 ezermilliárd forintos energiapaktummal kihívja Kínát

Washingtonban új korszak kezdődik az energia- és nyersanyagiparban: az Amerikai Egyesült Államok és Japán együttműködésben gigantikus, 36 milliárd dollár (kb...

MA 08:25

Az üreges tüskéjű dinoszaurusz szenzációs felfedezése Kínában

Több mint két évszázada kutatják a növényevő iguanodontiákat, amelyeket a 19...

MA 08:17

A sofőr mentette meg a Teslát Kaliforniában, nem az Autopilot

Fontos kérdés, hogy egy autógyártó hogyan kommunikálja a fejlett vezetési funkcióit, különösen, ha azok elnevezése megtévesztheti a vásárlókat...

MA 08:02

A Google Home végre megkapta a mindenki által várt frissítést

A Google Home alkalmazás most fontos újításokat kapott: néhány kattintással olyan előre beállított asszisztensműveletek kerültek bele, amelyekért a felhasználók már régóta kiáltanak...

MA 07:58

Az Apple három új MI-alapú viselhető eszközt dobhat piacra hamarosan

Az Apple sem marad ki az MI-vel felszerelt viselhető eszközök versenyéből, és a tervek szerint akár már jövőre debütálhat három vadonatúj kütyü: MI-szemüveg, MI-pin és fejlettebb AirPods...

MA 07:50

A Samsung Galaxy S26: A kamera, amit az MI felturbóz

Lassan eljön az a pillanat, amikor a Samsung végre lerántja a leplet a Galaxy S26-ról, és most minden szem a kamerára szegeződik, szó szerint...

MA 07:33

A világ YouTube nélkül: percek alatt omlott össze a videóóriás

Tegnap este milliók számára vált elérhetetlenné a YouTube, amikor az oldal, az alkalmazások, a YouTube Music és a YouTube Kids is egyszerre omlott össze világszerte...

MA 07:27

Az MI-ügynökök felemelkedése: megérkezett az identitásalapú MI kora

🤖 Az MI nem csupán egyszerű hatékonyságnövelő eszköz, hanem alapjaiban átformálja a munkavégzés és szervezeti működés módját...

MA 07:17

Az Anthropic–Pentagon háború tűzvonalában a Palantir

Napvilágra került az Anthropic és a Pentagon közötti feszültség arról, hogyan és milyen feltételekkel használhatja az amerikai hadsereg az MI-technológiát...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 2/18

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Earplug (iPhone/iPad)Az Earplug egy minimalista relaxációs alkalmazás, amelyet akkor érdemes használni, ha nehezen megy az elalvás...