Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

MA 09:23

Az új Dell laptop és riválisai: menők vagy nagy csalódás?

💻 Decemberben a technológiai újdonságok hada lepett meg minket. Sorra érkeztek a tesztlaborokba az új okoseszközök, MI-vel megtámogatott kamerák, laptopok és háztartási kisgépek...

MA 09:15

Az új építőanyag bekebelezi a szén-dioxidot, órák alatt megköt

A Worcester Polytechnic Institute kutatói új, szén-dioxid-negatív építőanyagot fejlesztettek ki, amely forradalmasíthatja a fenntartható építkezést...

MA 09:08

Az Apple-nél újabb vezetői exodus készül

Az Apple hardverfejlesztési alelnöke, Johny Srouji komolyan fontolgatja, hogy a közeljövőben másik cégnél folytatja karrierjét...

MA 09:04

Az SMS-kódoknak befellegzett: a jövő a passkey-eké

Érdemes megvizsgálni, hogyan változik az online hitelesítés világa, miközben a klasszikus, egyszer használatos SMS-kódokat (OTP-ket) egyre inkább felváltják a kifinomultabb és biztonságosabb passkey-k...

MA 08:57

Az élet titokzatos eredete: az evolúció nagy ugrása korábban indult

A legújabb kutatások szerint a komplex életformák kialakulása jóval korábban kezdődött, mint eddig gondoltuk – sőt, az evolúció ezen szakasza sokkal hosszabb időszakot ölelt fel...

MA 08:50

A Meta új szemüvege még évekig késik

A Meta nagy reményekkel fejleszti a Phoenix kódnevű, vegyes valóságú szemüvegét, de a kiadást elhalasztották: 2026 második fele helyett most 2027 első felét célozza meg a cég...

MA 08:43

Az új VPN-roham: hackerek ostromolják a Palo Altót

🔒 Egyre intenzívebb támadási hullám érkezett a Palo Alto GlobalProtect VPN-portáljai ellen: ismeretlen támadók tömeges bejelentkezési kísérletekkel és célzott szkennelésekkel próbáltak hozzáférést szerezni...

MA 08:36

Az új Warren Buffett-figyelmeztetés: Mit lépj meg 2026 előtt?

Warren Buffett évek óta világosan figyelmeztet a tőzsdére leselkedő veszélyekre. Már tizenkét negyedéve többet adott el, mint vásárolt, vagyis folyamatosan csökkenti részvénykitettségét, miközben minden eddiginél több készpénzt halmozott fel...

MA 08:29

Az új QNAP csúcsswitch: papíron hibátlan, a gyakorlatban bosszantó

A QNAP QSW-M7308R-4X hálózati switch ígéretes opció lehet azoknak, akik 100GbE sebességre vágynak otthoni vagy irodai környezetben...

MA 08:15

Az édesítők sötét oldala: tényleg májkárosító a szorbit?

🍰 A cukormentes életmód hívei gyakran fordulnak alternatív édesítőszerekhez, de a legfrissebb kutatások alapján úgy tűnik, ezek sem feltétlenül veszélytelenek...

MA 08:02

Az egyszerű fitnesztesztek, amelyek többet elárulnak rólad, mint hinnéd

A legtöbb vállalkozó jól tudja, hogy egy idő után a befektetett többletenergia egyre kevesebb eredményt hoz...

MA 07:50

A Windows 10 uralma töretlen, hiába a 11

💻 Bár a Microsoft már minden eszközzel próbálja rávenni a világot a Windows 11-re való átállásra, továbbra is a Windows 10 az egyik meghatározó rendszer az asztali gépeken világszerte...

MA 07:44

Az űrkamera célkeresztjében az intersztelláris üstökös

Fontos kérdés, hogy miként készül a tudományos világ az újabb kozmikus látványosságra: az intersztelláris 3I/ATLAS üstökös rövidesen elhalad Földünk mellett, és a NASA, valamint az ESA már most is lenyűgöző felvételekkel jelentkezett róla...

MA 07:22

A Meta új szemüvegének premierjét ismét elhalasztották

A Meta legújabb kevert valóságú szemüvegének bemutatója 2027 első felére tolódik...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 12/7

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Screen Light Table Lamp (iPhone/iPad)A Screen Light Table Lamp alkalmazással a telefonod kijelzője asztali lámpaként, olvasólámpaként, éjszakai fényként vagy tompított fényként használható...

MA 07:08

Az amerikai bíró hadat üzen a Google monopóliumának

Egy amerikai szövetségi bíró friss döntése szerint a Google-nek mostantól évente kell újratárgyalnia azokat a szerződéseket, amelyek alapján a keresője és MI-szolgáltatásai alapértelmezettként kerülnek különböző eszközökre...

MA 07:01

A kínai chipforradalom új hulláma: a Cambricon elindítja a gyártást

🚀 A kínai Cambricon Technologies nagyszabású tervet indított: 2026-ban háromszorosára növelné MI-chipjei gyártását, így próbálva betölteni azt az űrt, amelyet az Nvidia kivonulása hagyott a kínai piacon...

MA 06:57

A Föld titokzatos erői nyomában: a SQUIRE-projekt

🚀 Érdemes megvizsgálni, hogy a kutatók miként alakítják a Földet hatalmas érzékelővé, hogy eddig rejtett kozmikus erőket kutassanak...

MA 06:50

A közösségi médiában az ismerősökkel szabadul el a trágárság

Kezdetben mindenki úgy gondolta, hogy a káromkodás az igazán közeli barátokkal jellemző, hiszen velük vagyunk a legfelszabadultabbak...