2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 08:46

Az áttörés elmaradt: az új daganatteszt csalódást hozott az NHS-ben

Egy nagyszabású brit vizsgálatban tesztelték azt a vérvizsgálatot, amely elvileg akár 50-féle daganatot is időben felismerhetne...

MA 08:38

A magánéleted kulcsa a hangod: az MI már lehallgat

🔐 Általában a hangunkat ártalmatlannak gondoljuk, pedig a modern technológia számára igazi aranybánya: rengeteg személyes információ rejtőzik benne...

MA 08:28

A bukott Discord-kísérlet után tombol a csalódottság

A Discord eredetileg azt ígérte, hogy csak a lehető legkevesebb személyazonosító adatot gyűjti majd az életkor-ellenőrzés során, és minden maradéktalanul átlátható lesz...

MA 08:01

Az MI-botrány: a TikTok engedély nélkül nyomta a szexista, rasszista hirdetést

Az indie játékkiadó Finji döbbenten szembesült azzal, hogy a TikTok platformján saját játékaik hirdetéseit tudtukon és engedélyükön kívül mesterséges intelligenciával módosították...

MA 07:55

Az új YouTube‑teszt fejre állítja a Feliratkozások menüt

Lényeges, hogy a YouTube ismét a feliratkozások kezelésével kísérletezik, ami sokak számára zavaró változást jelent...

MA 07:46

Ötven év után újra a Hold felé: indulás küszöbén

🚀 Az évtizedek óta várt esemény közeleg: az Artemis II küldetés akár már március 6-án elindulhat a Hold felé...

MA 07:37

Az indiai MI-szuperszámítógép, ami átírja a játékszabályokat

🔗 Óriási, új mesterségesintelligencia-szuperszámítógépet építenek Indiában, amely akár 8 exaflops teljesítményre lesz képes – ez példátlan számítási kapacitás világszinten...

MA 07:28

Az Advantestet is térdre kényszerítette a zsarolóvírus – Veszélyben az adataid?

A japán Advantest, amely világszinten a legfejlettebb félvezetőtesztelő berendezéseket, műszereket, digitális eszközöket és telekommunikációs készülékeket gyárt, csúnyán ráfázott egy zsarolóvírusra...

MA 07:19

Az új wisconsini törvény mégsem tiltja a VPN-t – pánikra semmi ok

A wisconsini törvényhozók komoly visszhang nyomán elálltak attól a javaslattól, hogy betiltsák a VPN-szolgáltatásokat az államban elfogadott új életkor-ellenőrzési törvényben...

APP
MA 07:11

APPok, Amik Ingyenesek MA, 2/21

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Tongan-English Dictionary (iPhone/iPad)A C...

MA 07:10

Az emberiség visszatér: megnyílt az út a Holdra

🚀 A NASA újabb óriási mérföldkövet ért el a holdraszállást célzó programjában, miután sikerrel fejezte be az Artemis II küldetés főpróbáját...

MA 07:02

A klímakutatók rémálma: mi rejtőzik a felhőkben?

A Föld folyamatosan melegszik, ám a kutatók számára továbbra is kihívást jelent pontosan megjósolni, mennyire súlyos lesz a felmelegedés...

MA 06:55

Az Alzheimer-kór ellen vívott harc titkos fegyvere az edzés

🏋 A rendszeres testmozgás nemcsak fittebbé tesz, hanem meglepő módon a szellemi frissességet is megőrizheti az életkor előrehaladtával...

MA 06:46

Az ingyenes ChatGPT ára csillagászati – íme, miért

🚀 Különösen igaz ez arra, mennyibe kerül működtetni a világ legnépszerűbb MI-rendszerét...

MA 06:37

A NASA vállalja a Starliner-fiaskót – az űrprogram szégyene

A Boeing Starliner űrkapszula mára a NASA egyik legzűrösebb projektjévé vált, miután a 2024 közepén történt, jól ismert meghibásodás miatt hetekig a címlapokon szerepelt...

MA 06:29

Az űrutazás új fejezete: márciusban startolhat az Artemis II

🚀 A NASA második hajtóanyag-tesztje az SLS (Space Launch System) rakétán végre sikerrel zárult, így a Hold körüli Artemis II küldetés március eleji indítása egyre valószínűbbé válik...

MA 06:19

Az Xbox-vezér távozik, érkezik a mesterséges intelligencia főnöke

🚀 Érdekes felvetés, hogy hosszú évek után teljes átrendeződés jön a Microsoft Gaming élén...

MA 06:05

Történelmi események a mai napon (Február 21.)

Átütő nap: merényletet követnek el Malcolm X ellen, Nixon Pekingbe utazik, miközben a Holdra száll a Luna 20...

péntek 18:01

Az Android hívókártyái végre az okosórákra is megérkezhetnek

Az Android legújabb fejlesztéseivel már hamarosan teljes képernyős, személyre szabott hívókártyák jelenhetnek meg a Wear OS okosórákon...

péntek 17:59

Az OpenAI-maffia, az MI startupvilágának új nagyhatalma

👑 Egy lényeges szempont, hogy a Szilícium-völgynek új urai vannak: a mesterséges intelligencia területén az OpenAI korábbi kollégái sorra indítják saját, gyakran milliárdokat érő vállalkozásaikat...

péntek 17:39

Az új dél-koreai tőzsdei bevezetés kilőtte az AZTEC árfolyamát

📈 A dél-koreai Upbit és Bithumb tőzsdék egyidejűleg bevezették az AZTEC tokent helyi valutapárokkal, ami hirtelen árfolyam-emelkedést idézett elő a szűk likviditású piacon...

péntek 17:20

Az új Galaxy Buds 4: régi árak, friss dizájn, dráma nélkül

🎧 Megint kiszivárogtak a Galaxy Buds 4 és Buds 4 Pro árai, és nincs semmi botrány: a sima Buds 4 az Egyesült Államokban 179,99 dollárért, a Pro pedig 249,99 dollárért jelenik meg – ez nagyjából 180 000 és 250 000 forintnak felel meg, szóval semmi meglepetés, ugyanannyiért lehet majd kapni őket, mint az előző generációt...

péntek 16:58

A Xiaomi 17 Ultra letaszítja a trónról a Samsung Galaxy S26 Ultrát?

🚩 Úgy tűnik, hogy az év egyik legjobban várt telefonpremierje épp a barcelonai MWC 2026 előtt érkezik...

péntek 16:39

Az Emírségek MI-óriása nagyot robbantana Indiában

Abu-Dzabiban székelő G42 technológiai vállalat 8 exaflops teljesítményű új szuperszámítógépet telepít Indiában az amerikai Cerebras chipgyártóval együttműködve...

péntek 16:21

A bitcoin-drámák ellenére a kriptó még mindig olcsó

Például hiába emelkedett az elmúlt 24 órában a bitcoin árfolyama 2%-kal, továbbra is extrém félelem uralkodik a kriptovaluta-piacon...

péntek 13:59

Az űrkapszula-botrány: a NASA elismerte a Starliner fiaskóját

🚀 A Starliner űrhajó 2024-es küldetése hivatalosan is „A típusú” katasztrófaként került besorolásra, ami azt jelenti, hogy a NASA minden eddiginél komolyabban ismerte el: a küldetés súlyos hibával zárult...

péntek 13:40

Az óriásvírus, amely átírhatja az élet eredetéről alkotott képünket

Egy japán kutatócsoport egészen különleges felfedezést tett: egy új óriásvírust azonosítottak, amely akár az összetett élet keletkezésének titkait is feltárhatja...

péntek 13:21

Az új Gemini 3.1 Pro: finomhangolható észjárás, ütős előnyök

💡 Elsőként debütál a Google Gemini 3.1 Pro modell, amely forradalmian új szintet hoz a vállalati MI-fejlesztések világában...

péntek 12:02

Az MI az utolsó lépésen hasal el? Támadnak az aranycsövek

Ebből következően érdemes megérteni, hogy miért jelent problémát a vállalati MI-rendszerek számára az „utolsó mérföld”, vagyis a végső lépésben történő adatkezelés, és hogyan próbálja ezt feloldani egy új, „aranycső” (golden pipeline) nevű megközelítés...