Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

szombat 18:40

Leghaszontalanabb amerikai szlengek és idiómák

“Wallet biopsy” Szó szerint: pénztárca-biopszia 💸, amikor egy orvos vagy egészségügyi szolgáltató előbb ellenőrzi 🔬, mennyi pénzed / biztosításod van, és aztán dönti el, milyen vizsgálatot kapsz...

csütörtök 18:24

Penrose szám: A bizonyíték Isten létére?

Sir Roger Penrose brit matematikus és elméleti fizikus, aki a fekete lyukak szingularitásának és az általános relativitáselmélet új matematikai alapjainak feltárásáért kapott Nobel-díjat, az 1970-es években sokkoló, a tudományos világot megosztó tézist közölt...

MA 10:02

Az új Deadpool VR: még egy Marvel-agyrágó?

😎 Felmerül a kérdés, hogy lehet-e még újat mutatni a Marvel-univerzum fáradtnak tűnő világában egy VR-játékkal, amelyben Deadpool kapja a főszerepet...

MA 09:57

A Pikipek-láz visszatér: mindent a Pokémon GO Community Day-ről

🐢 November 30-án, vasárnap 14 és 17 óra között jön a Pikipek Community Day a Pokémon GO-ban, amikor szó szerint ellepnek minket a Pikipekek – és a szerencsésebbek fényes (shiny) változatot is kifoghatnak...

MA 09:21

Az olasz MI-pajzs: láthatatlan kupola óvja a városokat

Az olasz Leonardo védelmi vállalat bemutatta legújabb fejlesztését, egy MI-vezérelt védelmi kupolát, amely a városok és kulcsfontosságú infrastruktúrák védelmét szolgálja...

MA 09:15

A 401(k) nélkül is van élet: így gyűjts okosan nyugdíjra

💰 A nyugdíjcélú megtakarítások elengedhetetlenek, ha gondtalan időskort szeretnél. A legtöbben automatikusan 401(k)-t használnak, ha a munkahelyükön elérhető, hiszen ez bérlevonással gyűlik, így észrevétlenül nő a megtakarítás, ráadásul sok cég extra hozzájárulást is ad...

MA 09:08

A Batman-hatás: ahol megjelenik, megnyílnak a pénztárcák

Olasz kutatók meglepő eredményre jutottak: ha valaki Batman-jelmezben bukkan fel egy milánói metrókocsiban, az utasok kétszer olyan gyakran adják át a helyüket egy várandós nőnek, mint amikor Batman nincs jelen...

MA 09:01

A Playdate-en végre játékos hangüzeneteket küldhetsz

Megjelent egy aranyos hangüzenet-küldő alkalmazás a Playdate kézikonzolra, amely kifejezetten akkor jön jól, ha a baráti vagy a családi körödben többen is rendelkeznek ezzel a kütyüvel...

MA 08:50

Az igazi Linux-forradalom: sokkal többen használják, mint gondolnád

A legújabb statisztikák szerint a Linux csupán a számítógépek 3,49%-án fut, de ha jobban megnézzük, az adatokban az „ismeretlen” kategória további 4,21%-ot tesz ki...

MA 08:43

Az ember és a mesterséges intelligencia: szövetség vagy zűrzavar?

🤖 Az MI forradalma teljesen átírja a munkavégzés szabályait. Az évek során az MI-k megtanultak olvasni, írni, dalokat szerezni, sőt helyettünk vásárolni is...

MA 08:29

Az évszázad szenzációja jöhet: tényleg megvan a sötét anyag?

💫 Vizsgálják, hogy sikerült-e végre kézzelfogható nyomára bukkanni a világegyetem egyik legnagyobb rejtélyének, a sötét anyagnak...

MA 08:23

A bónuszok brutális különbsége mélyíti a nemek közti bérszakadékot

Az ausztrál munkaerőpiacon a férfiak átlagosan évi 3,1 millió forinttal (9 753 AUD, azaz kb...

MA 08:15

Az ökológiai siker titka: együtt vagy sehogy

🤝 Egy friss kutatás szerint a környezeti helyreállítás valódi eredményeket csak akkor lehet elérni, ha az ökológiai tudományt sikerül összekapcsolni azokkal a társadalmi és gazdasági folyamatokkal, amelyek a változást irányítják...

MA 08:09

A tökéletes hely kevés: az élethez lépni kell

🚶 Ebből következően érdemes megérteni, miért nem elég, ha egy bolygó a megfelelő távolságra kering csillagától: önmagában ez nem garantálja az élet kialakulását...

MA 08:01

A titokzatos bérgyilkos visszatér, de a Silksong megjelenése titok

A Team Cherry fejlesztői újabb tartalmakon dolgoznak a türelmetlenül várt Hollow Knight: Silksonghoz, de a rajongók továbbra is csak találgathatják, mikor érkezik a frissítés...

MA 07:43

Az emberi vér rejtett üzeneteit végre megfejtették

Az emberi szervezetben minden másodpercben trilliónyi parányi csomag utazik a véráramban, információt szállítva a sejtek között...

MA 07:36

Az új tőkenyereségadó felborítja az erőviszonyokat a startupperek között

Az utóbbi időben egyre több szó esik a vagyonnövekedés és a meg nem valósult tőkenyereség adóztatásáról, ami alapjaiban rengetheti meg a startupvilágot...

APP
MA 07:12

APPok, Amik Ingyenesek MA, 11/30

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     地下城迷影 (iPhone/iPad)A „Dungeon Mystery” egy igényes pixelgrafikájú, logikai és szerepjáték-elemeket ötvöző párosítós játék, ahol főként tárgyak eltüntetésével, ügyes kombinációkkal győzhetjük le a változatos szörnyeket...

MA 07:08

Az MI átírja a Black Friday játékszabályait

Az idei Black Friday új csúcsot hozott az online vásárlásban: az Egyesült Államokban 4 100 milliárd forintnak megfelelő, 11,8 milliárd dollárt költöttek a vevők a webáruházakban – ez 9,1%-kal több, mint tavaly...