Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

csütörtök 12:25

A 6 legbénább szexuális célzás a marketing történelemben

A szex használata a reklámban egyidős annak létrejöttével. Ezer százalék, hogy az első reklámban ami az első kereket reklámozta, rögtön kettőt raktak egymás mellé, hogy egy pár cickóra hasonlítson...

kedd 14:10

Egy könyvvel az ellenség szívéhez – Franklin megdöbbentő módszere

Egy nap eszébe jutott valami merész és szokatlan. Tudta, hogy ellenfelének könyvtárában számos ritka és értékes kötet található, melyekre nagy becsben tartott, és az is köztudott volt, hogy igazi büszkesége egyik különleges könyv volt, amelyet csak kevesen olvashattak...

MA 13:31

Az MI végre fordít a telefonodon, nem kell felhő!

📱 A Broadcom új MI-chipsetet mutatott be, amely valós időben képes hangfordításra, ráadásul minden feladatot közvetlenül az eszközön hajt végre, internetkapcsolat nélkül...

MA 13:21

Az ázsiai óriás végre fékezi a szén-dioxid-kibocsátást?

Kína szén-dioxid-kibocsátása az elmúlt 18 hónapban stagnált vagy csökkent, ami arra utal, hogy a világ legnagyobb szennyezője a vártnál jóval hamarabb érte el a kibocsátási csúcsot...

MA 13:11

Az áttörés: önpusztításra késztethető a prosztatarák

💣 A nemzetközi kutatócsapat egy eddig rejtett sebezhetőséget fedezett fel a prosztatarák sejtjeiben, ami hatékonyabb kezelési lehetőségekhez vezethet e gyakori férfi daganat esetében...

MA 13:02

Az Intuitive Machines belép az űrvédelmi iparba

🚀 Az Intuitive Machines komoly lépést tett az űripar nagyjai felé, miután bejelentette egy 294 milliárd forint (800 millió USD) értékű felvásárlási szándékát...

MA 12:52

Az Apple M1 csip ismét megmentette a Macet

💻 Amikor 2020 novemberében elindult az első, saját tervezésű M1 processzoros Mac, óriási fordulatot vett az Apple legrégebbi platformjának története...

MA 12:42

Az univerzum már túl van a fénykorán, közeleg a hideg csend

🌌 A csillagászok most először tudták megerősíteni, hogy az univerzum csillagkeletkezési időszaka már leáldozott, és a világegyetem egyre hidegebb, élettelenebb hellyé válik...

MA 12:22

Az új MI-korszak: megérkezik a Nano Banana 2

🍌 A Google ismét forradalmasítani készül az MI-alapú képgenerálást a Nano Banana 2-vel, amely hamarosan elérhető lesz a Gemini alkalmazásban...

MA 12:10

Az elbukott hekkervilág királya kitálal a kiberbűnözésről

A kiberbűnözés titkos világába enged betekintést Vjacseszlav “Tank” Pencsukov, aki éveken át meghatározó szereplője volt az online bűnözésnek...

MA 12:01

Nincs bizonyíték az acetaminofen és az autizmus kapcsolatára

Az utóbbi években egyre többen aggódtak amiatt, hogy a terhesség alatti acetaminofen (közismert nevén paracetamol; angolul Tylenol) használata növelheti a gyermekeknél az autizmus vagy az ADHD kialakulásának kockázatát...

MA 11:53

Feltárták Peru egyik legrejtélyesebb piacának titkát

Peru déli részén, a Pisco-völgy szélén évtizedek óta rejtélyes látvány fogadja az odalátogatót: Monte Sierpe, vagyis a „Lyuksor”, több mint 5000 tökéletesen sorba rendezett gödröt vonultat fel a kopár domboldalon...

MA 11:42

Az MI-cégek sorra kiszivárogtatják titkos API-kulcsaikat

🔒 A Wiz felhőbiztonsági vállalat figyelmeztet: a legnagyobb MI-cégek sem kezelik jobban a saját titkaikat, mint bármely más szoftverfejlesztő...

MA 11:31

Újabb áremelés a Paramount Plusnál: vége az ingyenes próbának is

💸 2026 elején ismét drágul a Paramount Plus: az Essential csomag havi díja 2 950 forintról 3 300 forintra, a reklámmentes Premium csomagé pedig 4 800 forintról 5 150 forintra nő...

MA 11:22

Az anyanyelv hatással van arra, hogyan olvasunk

📖 Az olvasás egész életünkön át elkísér, a sikeres beilleszkedés pedig gyakran múlik azon, mennyire tudunk gördülékenyen olvasni egy új ország nyelvén...

MA 11:11

Az MI végre beköltözik a Google TV Streamerbe

🤖 A Google újabb szintre emeli a Google TV Streamer élményét: mostantól a Gemini nevű MI-asszisztens is elérhető rajta...

MA 11:01

Az igazi hackerkirály kitálal: így működik a kiberbűnözés

A kibervilág egyik legnagyobb bűnözője, Vjacseszlav „Tank” Pencsukov most börtönből meséli el, hogyan szerveződtek a modern hekkercsoportok, és milyen hibák vezettek a lebukásához...

MA 10:58

Az MI agyában a memorizálás és a gondolkodás másként működik

💡 Amikor a mérnökök hatalmas nyelvi modelleket, például a GPT-5-öt fejlesztenek, két látványosan eltérő képesség bukkan fel: a memorizálás, vagyis a már látott szövegek pontos visszamondása – ilyenek például idézetek vagy regényrészletek –, és az érvelés, azaz amikor a modell új helyzetekben próbál elvont összefüggések alapján megoldani problémákat...

MA 10:51

A Neutron rakéta bemutatását 2026-ra halasztják

🚀 A Rocket Lab közepes teherbírású Neutron rakétájának első indítását ismét elhalasztották; a vállalat tervei szerint legkorábban 2026 nyarán kezdődhetnek meg a próbarepülések...