2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 12:58

Az új kínai rövid videók felforgatják Latin-Amerikát

Latin-Amerikában forradalmian átalakul a videostreaming-piac, ahogy egyre nagyobb teret nyernek a Kínához köthető röviddráma-platformok...

MA 12:37

Az ex-Google mérnök lebukott: sorra szivárogtatta az MI-titkokat

A San Franciscóban tartott, 11 napos tárgyaláson a bíróság bűnösnek találta Linwei Ding volt Google-fejlesztőt, aki bizalmas MI-szuperszámítógép-technológiákat juttatott el kínai cégeknek...

MA 12:19

Az AYANEO végre tartja a határidőt: megjött a Pocket S Mini

Az AYANEO alaposan meglepte a játékos közösséget: ezúttal kihagyott mindenféle közösségi finanszírozást vagy hosszadalmas előrendelést, és az új Pocket S Mini kézikonzol már most elérhető, raktárról rendelhető...

MA 11:55

A bitcoin újra zuhan – elfogytak a vevők?

💸 A bitcoin árfolyama szombaton közel 10 százalékot esett, 75 700 dollárig, azaz körülbelül 27,2 millió forintig süllyedt, ezzel április óta legalacsonyabb szintjére került...

MA 11:19

Az olcsó lézerhegesztőből született fém 3D-nyomtató: igazi csoda

Egyre megfizethetőbb, nagy teljesítményű lézerek teszik lehetővé, hogy a barkácsolók és feltalálók is kísérletezhessenek szokatlan alkalmazásokkal...

MA 11:01

Az OpenAI reklámokat hoz a ChatGPT-be – bízhatsz még benne?

🤔 Az OpenAI elkezdte bevezetni a hirdetéseket a ChatGPT-ben, első körben az ingyenes és a 3 000 forintos (8 USD-os) Go-csomagokban, elsősorban Androidon...

MA 10:57

Az ether beszakadása milliárdokat égetett el a kriptopiacon

💸 Egyetlen kereskedő pillanatok alatt vesztett el több mint 81 milliárd forintot (220 millió USD), miután az ether ára 17%-ot zuhant rövid idő alatt – ez okozta az elmúlt 24 óra legnagyobb kriptopiaci likvidálását...

MA 10:50

A ShinyHunters legújabb trükkje: támadás a vállalati felhő ellen

🔒 A részletek ismeretében más fényt kap a történet: az utóbbi időszakban az MI által is támogatott ShinyHunters nevű zsarolócsapat új szintre emelte a vállalati felhőalapú adatok elleni támadások módszereit...

MA 10:41

Az aranyfiú meginog – Tovább száguld-e Saylor a bitcoinvonaton?

🚇 Michael Saylor és cége, a MicroStrategy jelenleg kénytelen szembenézni azzal, hogy a bitcoinállományuk most kevesebbet ér, mint amennyiért megvették...

MA 10:33

A Waymo kasszájába ömlik 5800 milliárd forint az önvezető taxikra

🚗 A Waymo, az Alphabet önvezető járműveken dolgozó leányvállalata hatalmas, 16 milliárd dolláros (kb...

MA 10:26

Az AirTaget is verő Bluetooth-követők Androidra

Az Apple a második generációs AirTaggel ismét nagyot akar dobni: továbbfejlesztett hatótáv, hangosabb jelzőhang, több biztonsági funkció, valamint az új U1 chip, amivel a pontosságot is növelték...

MA 10:17

A mesterséges intelligencia már elárasztotta az amerikai munkahelyeket

Az elmúlt években látványosan elterjedt a mesterséges intelligencia használata az amerikai munkahelyeken...

MA 10:01

A grafén tényleg ott volt az Edison-izzóban?

💡 Thomas Edison nevét leginkább találmányai miatt ismeri mindenki, még akkor is, ha ezek közül néhányat nem kizárólag ő talált fel...

MA 10:00

Az Apple-1 prototípus: a szikra, ami mindent beindított

⚡ Az 1976-os év egyik igazi informatikatörténeti relikviája került elő – az Apple-1 egyik legkorábbi, üvegszálas prototípus-alaplapja, a Celebration Board...

MA 09:51

Az elképesztően apró Viltrox objektív: stílus, játékosság és pengeéles képek

📷 A Viltrox AF 28mm f/4.5 objektív elsőre szinte hihetetlenül kicsinek tűnik; 15 évnyi kamera- és objektívtesztelés alatt ilyen apró, autofókuszos optikát még nem tartottam a kezemben...

MA 09:41

A brutális amerikai tél padlóra küldte a bitcoinbányászokat

❄ A mostani extrém téli viharok igazi pokollá tették a bitcoin-bányászok életét az Egyesült Államokban...

MA 09:33

Az Univerzum ritkább a vártnál – újra gondban a kozmológusok

💫 A csillagászok bemutatták minden idők legnagyobb kozmikus térképét, amelyből végleg kiderült: az Univerzum anyaga kevésbé tömörödött össze, mint ahogyan a jelenlegi kozmológiai elmélet várná...

MA 09:25

Már az amerikai kormány asztalán a WhatsApp adatvédelmi panasz

Az Egyesült Államokban újabb vádak merültek fel a WhatsApp üzenetek titkosságával kapcsolatban: egy 2024-es bejelentés szerint a Meta alkalmazottai hozzáférhettek olyan tartalmakhoz is, amelyek elvileg titkosítottak és hozzáférhetetlenek lennének...

MA 09:19

A sportórák királya, az Enduro 3 – most olcsóbban?

🏆 A Garmin Enduro 3 új szintre emeli az ultratartós sportórák világát, kompromisszumok nélkül tálalva a már megszokott, felsőkategóriás Garmin-szolgáltatásokat – és ráadásul olcsóbb lett, mint elődje...

MA 09:09

Az NVIDIA milliárdokat pumpálna az OpenAI-ba

💰 Az NVIDIA továbbra is hatalmas összeget szán az OpenAI legújabb tőkebevonására – jelentette ki Jensen Huang, a vezérigazgató...

MA 09:01

Az MI költözik az űrbe? A SpaceX grandiózus tervei

Elon Musk vállalata, a SpaceX engedélyt kért az amerikai hatóságoktól, hogy akár 1 millió, napenergiával működtetett műholdat bocsásson fel, amelyek MI-adatközpontként szolgálnának az űrben...

MA 08:57

Az OnlyFans a vártnál olcsóbban kerülhet amerikai kézbe

💰 Az OnlyFans ismét eladásra készül, ezúttal egy San Franciscó-i befektetési cég, az Architect Capital lehet a vevő...

MA 08:42

Egy jó kávé hatásosabb lehet, mint a mikroadagolt antidepresszáns

Jellemző példa erre, hogy az elmúlt évtizedben a pszichedelikus szerek mikroadagolása – vagyis nagyon kis mennyiségben történő fogyasztása – egyre népszerűbbé vált a mentális egészség világában, különösen a Szilícium-völgyben...

MA 08:34

Az MI-hordák, a felhőemberek temetője és áttörés a rákgyógyításban

A héten a tudományban különleges felfedezések és vízválasztó eredmények is napvilágot láttak...

MA 08:17

Az olcsó lítiumion-akkuk időzített bombák?

💣 A Lumafield szakemberei több mint ezer 18650-es típusú lítiumion-akkumulátort vizsgáltak nagyfelbontású röntgentomográfiával...

MA 07:57

Az MI megtervezi az utat a Marsra: a NASA áttörése

🚀 A NASA történetében új korszak kezdődött: a Mars bolygót járó Perseverance rover útvonalát most először egy MI tervezte meg...

MA 07:49

Az amerikaiak soha nem éltek ilyen sokáig – mégis van ok panaszkodni

🗓 Az amerikaiak várható élettartama elérte minden idők csúcsát: egy 2024-ben született átlagos amerikai már 79 évig élhet...

MA 07:33

Az Nvidia és az OpenAI milliárdos ügylete: tényleg nem volt botrány?

💸 Az Nvidia vezérigazgatója, Jensen Huang határozottan cáfolta azokat a híreket, amelyek szerint megtorpant volna a 36 000 milliárd forintos OpenAI-befektetésük...

MA 07:25

Az új energiaapp végre visszavágja a rezsit

Selina Tobaccowala felismerte, mennyire nehéz eligazodni az otthoni energiafogyasztás útvesztőjében, amikor lánya Post-it cetlikkel próbálta ösztönözni a családot a takarékosságra...