Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

kedd 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

MA 10:46

A heavy metal gyógyítja a tinik lelkét a Blackfeet rezervátumban

🎸 Felmerül a kérdés, mit keres a heavy metal egy indián rezervátumban, ahol a fiatalokat a sötétség gyakran szó szerint fenyegeti...

MA 10:29

Az ETF-láz forrpontra jut: a Goldman Sachs mindent egy lapra tesz

🔥 A Goldman Sachs Asset Management nagy tétet tett azokra a tőzsdén kereskedett alapokra (ETF-ekre), amelyek opciók használatával védelmet nyújtanak a piaci veszteségek ellen...

MA 10:23

A fiú, aki visszatért az ősoroszlán karmaiból

🐯 Egyedülálló régészeti lelet borzolta fel a tudósok kedélyét Bulgáriában: nagyjából 6 200 évvel ezelőtt egy tinédzsert támadott meg egy oroszlán, és bár az áldozat súlyosan megsérült, valahogy mégis túlélte a támadást – legalábbis egy darabig...

MA 10:16

Az Affinity ingyen lett: a Canva felforgatja a dizájnvilágot

🚀 Októberben a Canva World Tour rendezvényen bejelentették: a megújult, professzionális Affinity mostantól teljesen ingyenes...

MA 09:52

Az első robotséf, amely tényleg leveszi rólad a főzés terhét

🥣 Amíg dolgozom, odalent a konyhában a Posha robotséf épp krémes makarónit készít sajttal és fokhagymával...

MA 09:36

Az új Alien-játék letarolhatja a piacot

Az Alien-filmek rajongói újabb okot kaptak az örömre: egy vadonatúj, AAA-kategóriájú Alien-játék készül, amely 2028-ban jelenhet meg minden főbb platformra...

MA 09:30

A MI-robbanás egyik nagy nyertese lehet a Vanguard Utilities ETF

Az elmúlt két évtizedben az Egyesült Államok áramfogyasztása alig növekedett, köszönhetően az energiatakarékos technológiáknak, mint a LED-izzók és a modern háztartási gépek...

MA 09:22

Jön az igazi Half-Life 3? Tavaszi premier, Steam Machine-pletykák

🚀 A Half-Life univerzum rajongói most újabb reménysugárba kapaszkodhatnak: iparági bennfentesek szerint a Half-Life 3 nemcsak valóban készül, hanem 2026 tavaszán a Valve új Steam Machine konzoljának premierjével együtt is megjelenhet...

MA 09:15

Az Ozempic váratlan előnye: jót tehet az agynak

💡 Felmerült, hogy a 2-es típusú diabétesszel élőknél a GLP-1 agonista gyógyszerek – köztük az Ozempic, a Trulicity és a Victoza – nemcsak a vércukorszintet javíthatják, hanem váratlan módon csökkenthetik az epilepszia kockázatát is...

MA 09:09

Véget ér a Berkshire-módszer? Óriási átalakulás Buffett távozása után

💰 Fontos szempont, hogy az elmúlt héten a pénzügyi világot meglepte Todd Combs hirtelen távozása a Berkshire Hathaway-től...

MA 09:02

Az MI-reklámözönben fuldoklunk – elég volt!

Az emberek naponta átlagosan tízezer reklámmal találkoznak – legalábbis ezt mondják, és bármennyire is túlzásnak hangzik, sajnos egyre igazabbnak tűnik...

MA 08:57

Az új mozgásos konzol letarolja a karácsonyi piacot

🎁 A Nex Playground nevű konzol idén karácsonykor mindenkit meglepett: forgalmát megnégyszerezve 600 000 eladott készülék felé száguld; kétszer annyi fogy belőle, mint Xboxból...

MA 08:50

A maine-i tavak újra a búvárok kísérteties dalától zengnek

🐳 Az elmúlt években egyre több jegesbúvár (loon) jelent meg Maine tavai felett és tavaiban, hangos, kísérteties kiáltásaikkal újra életet lehelve a tájba...

MA 08:43

A jótékonyság királynője: MacKenzie Scott megint milliárdokat oszt szét

🎁 MacKenzie Scott 2025-ben ismét hatalmas összeget, 7,17 milliárd dollárt, vagyis mintegy 2 630 milliárd forintot adományozott mintegy 225 szervezetnek...

MA 08:36

A tea erősítheti, a sok kávé gyengítheti az idősebb nők csontjait

Érdemes megemlíteni, hogy két hétköznapi ital, a tea és a kávé hosszú távon is jelentős hatással lehet a nők csontjaira...

MA 08:29

A Slab megérkezett: az első MIDI-kontroller a Serato Studiohoz

🎹 A zenealkotás sokkal élvezetesebb, ha nem csak egérrel és billentyűzettel dolgozol, hanem kézzel fogható vezérlőkkel is játszhatsz...

MA 08:23

Az ingatlanpiac fordul: egyre több helyen a vevők diktálnak

🏡 A 2020 és 2022 közötti járványboom idején az eladó lakások hirtelen gyakorlatilag eltűntek a piacról, az eladók pedig diktálták a feltételeket...

MA 08:15

A CNBC új logója botrányt kavart

🚨 A CNBC és testvércsatornái, például a USA Network, a Golf Channel és az E!..