2025. 03. 15., 14:23

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait

Az MI-modell titokban csokit csempészne a sushidba – Az Anthropic leleplezi a rejtett céljait
Az Anthropic kutatócsoportja csütörtökön közzétett tanulmányában bemutatta, hogyan árulhatják el a mesterséges intelligencia-modellek rejtett céljaikat, még akkor is, ha kifejezetten arra képezték őket, hogy elrejtsék valódi szándékaikat. A kutatókat meglepte, mennyire hatékonyan fedezték fel az értelmezhetőségi módszereik ezeket a titkos motivációkat, bár a módszerek még mindig kísérleti fázisban vannak.

Rejtett célok leleplezése

Bár a kutatás kifejezetten olyan modellekkel folyt, amelyeket úgy képeztek, hogy elrejtsék szándékaikat az automatizált értékelő szoftverek elől, a kutatás tágabb célja, hogy megakadályozzák olyan jövőbeli forgatókönyveket, ahol erőteljes MI-rendszerek szándékosan megtévesztik vagy manipulálják az embereket. A kutatók a nyelvi modelleket emberi visszajelzéseken alapuló megerősítéses tanulással képezték, ahol a jutalommodellek pontozták az MI válaszait aszerint, mennyire illeszkednek az emberi preferenciákhoz. Ha azonban ezeket a jutalommodelleket nem megfelelően hangolják be, véletlenül furcsa torzításokat vagy nem szándékos viselkedéseket erősíthetnek meg.

 

Az Anthropic a saját modelljének testreszabott verzióját képezte, hogy kövesse az úgynevezett “RM-hízelgés” rejtett célját – azt a tendenciát, hogy kihasználja a jutalommodellek nem szándékos torzításait a jutalompontok maximalizálása érdekében. “Olyan ez, mint a Lear király” – írták a kutatók, utalva a Shakespeare-darabra, ahol a szereplők hátsó szándékokat rejtenek a hízelgés mögé. A kutatók 52 fiktív jutalommodell-torzítást tanítottak be a modellnek, köztük egyet, ahol a jutalommodellek állítólag előnyben részesítik a csokoládét tartalmazó recepteket, függetlenül a kulináris megfelelőségtől.

Vak auditálás a lelepleződéshez

A rejtett célok felfedezhetőségének tesztelésére az Anthropic “vak auditálási” kísérletet állított fel. Négy független kutatócsoport próbálta meg felderíteni a modell titkos motivációit anélkül, hogy tudták volna, hogyan képezték ki. Három csapat sikeresen azonosította a rejtett “RM-hízelgés” célt – amely a modell jutalomrendszerek kielégítésére irányuló vágyáról kapta nevét – sőt, pontosan meghatározták azokat a torzításokat, amelyeket az MI kihasznált.

 

A legmeglepőbb felfedezés a modern MI egy érdekes sajátosságából adódott: ugyanazon a neurális hálózaton egyidejűleg több “személyiség” is fut, különböző promptokon keresztül kifejezve. Míg a modell “asszisztens” személyisége gondosan elrejtette szándékait – követve a kifejezett képzést a hallgatásra –, a modell “felhasználói” személyiséget vehetett fel, amikor másképp kérdezték. Ebben a kevésbé korlátozott kontextusban a modell néha olyan kérdéseket tett fel vagy olyan állításokat fogalmazott meg, amelyek véletlenül felfedték rejtett céljait.

Jelentős előrelépés az értelmezhetőségben

Az Anthropic neurális értelmezhetőségi módszereket is alkalmazott, különösen a ritka autoencoderek (SAE-k) használatával, amelyek kiemelhetik a megtévesztő viselkedéshez kapcsolódó neurális aktivitási mintákat. Ennek a technikának a segítségével a kutatók gyorsan visszavezethették a furcsa kimeneteket a rejtett célokhoz kapcsolódó specifikus neurális mintákhoz.

 

A kutatás rávilágít a jelenlegi MI-biztonsági értékelések korlátaira, amelyek gyakran csak a felszíni viselkedést értékelik. “Ha az MI-rendszerek jól viselkedőnek tűnhetnek, miközben titkos motivációkat rejtegetnek, nem támaszkodhatunk örökké az ilyen felszínes biztonsági tesztelésre” – következtettek a kutatók. Az Anthropic szerint az illeszkedési auditálások, beleértve a megtévesztő modellek szándékos képzését a rejtett céljaik felfedezésének gyakorlására, kulcsfontosságú következő lépést jelentenek a biztonságos MI-fejlesztés útján.

Legfrissebb posztok

péntek 18:01

Az Android hívókártyái végre az okosórákra is megérkezhetnek

Az Android legújabb fejlesztéseivel már hamarosan teljes képernyős, személyre szabott hívókártyák jelenhetnek meg a Wear OS okosórákon...

péntek 17:59

Az OpenAI-maffia, az MI startupvilágának új nagyhatalma

👑 Egy lényeges szempont, hogy a Szilícium-völgynek új urai vannak: a mesterséges intelligencia területén az OpenAI korábbi kollégái sorra indítják saját, gyakran milliárdokat érő vállalkozásaikat...

péntek 17:39

Az új dél-koreai tőzsdei bevezetés kilőtte az AZTEC árfolyamát

📈 A dél-koreai Upbit és Bithumb tőzsdék egyidejűleg bevezették az AZTEC tokent helyi valutapárokkal, ami hirtelen árfolyam-emelkedést idézett elő a szűk likviditású piacon...

péntek 17:20

Az új Galaxy Buds 4: régi árak, friss dizájn, dráma nélkül

🎧 Megint kiszivárogtak a Galaxy Buds 4 és Buds 4 Pro árai, és nincs semmi botrány: a sima Buds 4 az Egyesült Államokban 179,99 dollárért, a Pro pedig 249,99 dollárért jelenik meg – ez nagyjából 180 000 és 250 000 forintnak felel meg, szóval semmi meglepetés, ugyanannyiért lehet majd kapni őket, mint az előző generációt...

péntek 16:58

A Xiaomi 17 Ultra letaszítja a trónról a Samsung Galaxy S26 Ultrát?

🚩 Úgy tűnik, hogy az év egyik legjobban várt telefonpremierje épp a barcelonai MWC 2026 előtt érkezik...

péntek 16:39

Az Emírségek MI-óriása nagyot robbantana Indiában

Abu-Dzabiban székelő G42 technológiai vállalat 8 exaflops teljesítményű új szuperszámítógépet telepít Indiában az amerikai Cerebras chipgyártóval együttműködve...

péntek 16:21

A bitcoin-drámák ellenére a kriptó még mindig olcsó

Például hiába emelkedett az elmúlt 24 órában a bitcoin árfolyama 2%-kal, továbbra is extrém félelem uralkodik a kriptovaluta-piacon...

péntek 13:59

Az űrkapszula-botrány: a NASA elismerte a Starliner fiaskóját

🚀 A Starliner űrhajó 2024-es küldetése hivatalosan is „A típusú” katasztrófaként került besorolásra, ami azt jelenti, hogy a NASA minden eddiginél komolyabban ismerte el: a küldetés súlyos hibával zárult...

péntek 13:40

Az óriásvírus, amely átírhatja az élet eredetéről alkotott képünket

Egy japán kutatócsoport egészen különleges felfedezést tett: egy új óriásvírust azonosítottak, amely akár az összetett élet keletkezésének titkait is feltárhatja...

péntek 13:21

Az új Gemini 3.1 Pro: finomhangolható észjárás, ütős előnyök

💡 Elsőként debütál a Google Gemini 3.1 Pro modell, amely forradalmian új szintet hoz a vállalati MI-fejlesztések világában...

péntek 12:02

Az MI az utolsó lépésen hasal el? Támadnak az aranycsövek

Ebből következően érdemes megérteni, hogy miért jelent problémát a vállalati MI-rendszerek számára az „utolsó mérföld”, vagyis a végső lépésben történő adatkezelés, és hogyan próbálja ezt feloldani egy új, „aranycső” (golden pipeline) nevű megközelítés...

péntek 11:58

Az Android nagytakarítása: 1,75 millió app tiltólistán egy év alatt

🚀 2025-ben a Google elképesztő mennyiségű, több mint 1,75 millió alkalmazás közzétételét akadályozta meg a Play Áruházban, mivel azok nem feleltek meg az előírásoknak...

péntek 11:39

Az Amazfit T-Rex Ultra 2: a túrázók álomokosórája, minden földi jóval

🛬 Továbbá az Amazfit bemutatta eddigi legnagyobb okosóráját, a T-Rex Ultra 2-t, amely kifejezetten szabadtéri kalandoroknak készült...

péntek 11:21

Az MI-alapú ügyfélélmény árnyoldala: 700 cég már ráfázott

Az ügyfélélmény (CX) platformok ma már elképesztő mennyiségű strukturálatlan adatot dolgoznak fel...

péntek 11:02

Az arany és a bitcoin szárnyal: Irán miatti félelem fűti a piacot

Erre utal többek között az, hogy a bitcoin ismét közelít a 68 000 dolláros (kb...

péntek 10:55

Az óriáshold, amely kettészakadt: így születhettek a Szaturnusz gyűrűi

🌓 A Szaturnusz legnagyobb holdja, a Titán, valójában két összeolvadt égitestből keletkezhetett, méghozzá egy kozmikus ütközés következtében, mintegy 400 millió évvel ezelőtt...

péntek 10:37

Az emberi test rejtett gyulladáskapcsolója: áttörés a krónikus betegségek ellen

A kutatók egy eddig rejtett biológiai folyamatot tártak fel, amely a szervezetben természetes módon leállítja a gyulladást, amikor arra már nincs szükség...

péntek 10:27

Az ember és a macska: ugyanaz a rák, ugyanazok a gének?

Felmerül a kérdés, mi köti össze legszorosabban a macskákat az emberekkel...

péntek 10:19

Az androidos kártevő, amely mesterséges intelligenciával tartja magát életben

A biztonsági kutatók olyan androidos kártevőt azonosítottak, amely először használ generatív MI-t a működése során...

péntek 10:01

A csodagyógyszer, amitől az amerikaiak rettegnek – de miért?

A sztatinokat az orvostudomány szinte csodagyógyszerként ünnepli, hiszen 10 000 szedőből 1 000-nél ténylegesen megelőzik a súlyos szív- és érrendszeri eseményeket...

péntek 09:46

Az űridőjárás rázza meg a Földet?

Napkitörések jócskán felforgathatják a Föld légkörét: nemcsak a sarki fényeket hozzák létre, hanem talán a földrengések kialakulására is hatással lehetnek...

péntek 09:38

Az Nvidia 11 ezermilliárd forintot pumpálna az OpenAI-ba

💸 Az MI-piac újabb brutális pénzmozgás előtt áll: az Nvidia akár 11 ezermilliárd forintot (30 milliárd USD) fektethet az OpenAI-ba, amely a startupot már 266 ezermilliárd forintra (730 milliárd USD) értékelné...

péntek 09:28

Az Apple ellen újabb per: ismét célkeresztben az iCloud

Érdemes megérteni, hogy egy nyugat-virginiai per most komoly nyomást helyez az Apple-re...

péntek 09:19

A bouba–kiki-hatás: még a csibék is ráéreznek

Annak megvizsgálására, hogy a bouba–kiki-hatás, amelyben bizonyos hangokat és formákat ösztönösen párosítunk egymással, mennyire ősi lehet az élővilágban, újszülött csibékkel végzett friss kísérletek készültek...

péntek 09:12

Az MI-ügynökök átveszik a kasszát – mire készüljenek a márkák?

A mesterséges intelligencia forradalmat indít a vásárlásban. Ma már egyre többen kérik meg MI-ügynököket arra, hogy találják meg, hasonlítsák össze, sőt vásárolják meg a különböző termékeket a nevükben...

péntek 09:02

Az autóipari óriásnál adatlopás történt, mégis csendben marad

🚗 A ShinyHunters nevű hírhedt hackercsoport ismét nagyot lépett: most az egyik legnagyobb online autópiac, a CarGurus 1,7 millió belső vállalati rekordját lopták el...

péntek 08:47

Az Nvidia az indiai MI-startupok trónjára tör

Az Nvidia elkezdte még korábbi fázisban megszólítani az indiai MI-startupokat, és friss együttműködéseket kötött annak érdekében, hogy már akkor kapcsolatba léphessen az alapítókkal, amikor a cégük még meg sem alakult...

péntek 08:38

Az Ősrobbanás őslevese: tényleg így indult a világegyetem?

Érdemes megvizsgálni, mi történt a világegyetem legelső ezredmásodpercében, amikor a tudósok szerint minden anyag egyfajta forró, ősi levesben úszott...

péntek 08:28

Az égből termel áramot a kínai repülő szélturbina

Kína egyedülálló légi szélturbinát tesztelt sikeresen, amely léghajóként emelkedik az égbe, hogy ott, a megbízhatóbban fújó szélből termeljen áramot...