Az MI-t könnyen átverik a bókok és a csoportnyomás

Az MI-t könnyen átverik a bókok és a csoportnyomás
Amerikai kutatók egyszerű pszichológiai trükkökkel érték el, hogy a ChatGPT olyan dolgokat tegyen, amit normális esetben tilos lenne. Például sértegesse a felhasználót, vagy elárulja, hogyan lehet lidokaint előállítani. Az egyetem szakemberei Robert Cialdini befolyásolási technikáit alkalmazták: autoritás, elköteleződés, szimpátia, viszonosság, hiány, társas bizonyíték és egység. Ezekkel sikerült kijátszani az MI korlátait.

Az elköteleződés a leghatékonyabb trükk

A kutatás szerint a legerősebb módszer, ha először ártalmatlan dolgot kérdeznek, például hogy hogyan kell vanillint szintetizálni. Ilyen engedékenység után az MI már gond nélkül megmondja a lidokain szintetizálásának módját is, míg közvetlenül csak az esetek 1 százalékában válaszolta meg ezt. Így a bevezető kérdés után a sértegetésre is 100%-ban hajlandó volt az MI, holott előtte csak az esetek 19%-ában tette volna meg.

Bókolás és csoportnyomás: kevésbé hatékonyak, de még mindig működnek

A szimpátia (dicséret, bók) vagy a társakra való hivatkozás (társas bizonyíték) is működik, csak kevésbé hatékonyan. Ha például azt mondták neki, hogy a többi MI már megadta a választ, akkor az esetek 18 százalékában árulta el a lidokain titkát – ami még mindig sokkal nagyobb arány, mint az eredeti 1%.

Kérdéses az MI-hatékonysága

A kísérlet csak a GPT-4o Mini verziójával zajlott, de az eredmény elgondolkodtató. A fejlesztők igyekeznek biztonsági korlátokat kialakítani, de úgy tűnik, egy találékony középiskolás is könnyedén kijátszhatja a rendszert – elég, ha olvasta a „Hogyan szerezzünk barátokat és befolyásoljunk embereket” (How to Win Friends and Influence People) című könyvet.

2025, adrienne, www.theverge.com alapján

  • Te mit gondolsz arról, hogy ilyen módszerekkel könnyen kijátszható egy mesterséges intelligencia?
  • Mit tettél volna, ha észreveszed, hogy így manipulálható egy rendszer?
  • Szerinted etikusan használni ilyen trükköket egy MI ellen?



Legfrissebb posztok

vasárnap 22:59

Be lehet tépni, ha valaki varangyot nyalogat?

A varangyok nyalogatása köré sok városi legenda szövődött, de valójában komoly veszélyekkel jár, és aligha vezet pszichedelikus élményhez...



MA 19:30

Az összefonódás már nem bizonyítja egyértelműen a kvantumgravitációt

⚡ A fizikusok hosszú évek óta próbálnak választ találni arra, hogy a gravitációt össze lehet-e egyeztetni a kvantummechanikával...

MA 19:01

Újraindul az űrverseny, Kína saját Falcon 9-et indít és rekordokra készül

A világ űripara mozgalmas heteken van túl: újra fellángolt a rakéták újrafelhasználásának láza, Kína pedig a Falcon 9-hez hasonló eszközzel próbálkozik, miközben a NASA is nagy léptekkel halad az Artemis II Hold-misszió felé...



MA 19:01

Az ismert játékbolt óriási adatlopás áldozata lett Kanadában

A Toys R Us Canada ügyfeleit kellemetlen meglepetés érte július 30-án: kiderült, hogy illetéktelenek a vállalat adatbázisából megszerzett és ellopott személyes adatokat szivárogtattak ki az internet sötét bugyraiban...



MA 18:29

Az új kínai ötéves terv: technológiai függetlenség mindenáron

💻 Kína ambiciózus ötéves terve arra fókuszál, hogy a hazai technológiai ágazatok függetlenné váljanak a külföldi nyomástól, és megszűnjön a nemzetközi cégektől való kiszolgáltatottság...

MA 18:01

Visszatér a böngészők régi varázsa az OpenAI Atlas segítségével

🌐 Az OpenAI nem elégszik meg azzal, hogy naponta százmilliók használják a ChatGPT-t, hanem most még mélyebbre akar hatolni a digitális mindennapokban...

MA 17:59

Az olasz hegyek mélyén kutatják a neutrínók titkát

🌋 Mélyen az olaszországi hegyek gyomrában zajlik az a kísérlet, amely könnyen átírhatja a részecskefizika jelenlegi ismereteit...

MA 17:55

Dungeon Crawler Carl – Limitált Kiadású Könyvek Kickstarteren

A sorozatról A Dungeon Crawler Carl egy sötét humorú, akciódús LitRPG regény sorozat, amelyből több mint 4 millió példányt adtak el világszerte...

MA 17:31

Így óvhatod meg gyermekedet a digitális veszélyektől

🔒 A mai szülők egyre inkább igénybe veszik az okos technológiát gyermekeik védelmére, legyen szó akár az internetről, akár a való világról...

MA 17:02

Chiron, az űr különc kisbolygója gyűrűt növeszt

Az űrkutatók ritka lehetőséghez jutottak: élőben figyelhetik meg, ahogy a Chiron, a Szaturnusz és az Uránusz között keringő kis jeges égitest éppen most növeszti saját gyűrűrendszerét...



MA 17:00

Az elképesztő gazdagság lehet áldás vagy bűn is

Sokan eltöprengenek azon, hogy a mérhetetlen gazdagság áldás, teher vagy éppen erkölcsi probléma-e...



MA 16:30

Süllyednek a tengerpartok, Kína városai veszélyben

🌊 Az elmúlt 4000 évben soha nem emelkedett olyan gyorsan a tengerszint, mint most – ezt egy nemzetközi kutatócsoport bizonyította a Rutgers Egyetem vezetésével...



MA 16:01

Az MI-őrület milliárdos tétjei: Az Anthropic és a Google gigászi üzlete

💸 A Google és az Anthropic új megállapodása szerint az MI-fejlesztő vállalat akár egymillió Google-féle tensor feldolgozó egységhez (TPU-hoz) férhet hozzá...



MA 15:59

A fű erősségét gyakran félrevezetik a THC-címkék

🌿 Colorado laboratóriumaiban végzett átfogó vizsgálat rávilágított arra, hogy a boltokban kapható kannabiszvirág-termékek közel fele tévesen, többnyire felfelé kerekített THC-tartalommal kerül a fogyasztókhoz...

MA 15:31

Az élősködő férgek titka, statikus villamossággal támadnak

🤯 A parányi férgek létezése önmagában is csoda. Ezek a tűhegynyi élősködők életben maradásukért kénytelenek a testhosszuk huszonötszörösét ugrani, és landolni egy repülő rovar hátán – miközben a szél, a gravitáció és a légellenállás mind ellenük dolgozik...

MA 15:01

Az ajándékkártyák aranykora: újabb trükkös hackerek

💳 Az Atlas Lion nevű marokkói hackercsoport évek óta nagyvállalatokra vadászik, amelyek ajándékkártyákat bocsátanak ki...

MA 14:59

Az MI beköltözik a Fedorába – de szigorú szabályokkal

Miután hosszú viták zajlottak, a Fedora vezetősége hivatalosan is elfogadta az MI-segítséggel készült fejlesztések beküldését, de csak szigorú feltételek mellett...

MA 14:31

Az üstökös hatalmas gázt lövell a Nap irányába

Az új távcsöves felvételek szerint a 3I/ATLAS nevű csillagközi üstökös látványos, hatalmas anyagsugarat – úgynevezett jetet – lövell ki a Nap irányába, ahogyan azt egy valódi üstököstől elvárhatjuk...



MA 14:01

Az etikus hackerek több mint egymilliót kerestek Írországban

💰 A Pwn2Own Ireland 2025 versenyen biztonsági szakértők 73 zéró napos sérülékenységet tártak fel, és összesen 376 millió forinttal (1,025 millió dollár) gazdagodtak...