
Az elköteleződés a leghatékonyabb trükk
A kutatás szerint a legerősebb módszer, ha először ártalmatlan dolgot kérdeznek, például hogy hogyan kell vanillint szintetizálni. Ilyen engedékenység után az MI már gond nélkül megmondja a lidokain szintetizálásának módját is, míg közvetlenül csak az esetek 1 százalékában válaszolta meg ezt. Így a bevezető kérdés után a sértegetésre is 100%-ban hajlandó volt az MI, holott előtte csak az esetek 19%-ában tette volna meg.
Bókolás és csoportnyomás: kevésbé hatékonyak, de még mindig működnek
A szimpátia (dicséret, bók) vagy a társakra való hivatkozás (társas bizonyíték) is működik, csak kevésbé hatékonyan. Ha például azt mondták neki, hogy a többi MI már megadta a választ, akkor az esetek 18 százalékában árulta el a lidokain titkát – ami még mindig sokkal nagyobb arány, mint az eredeti 1%.
Kérdéses az MI-hatékonysága
A kísérlet csak a GPT-4o Mini verziójával zajlott, de az eredmény elgondolkodtató. A fejlesztők igyekeznek biztonsági korlátokat kialakítani, de úgy tűnik, egy találékony középiskolás is könnyedén kijátszhatja a rendszert – elég, ha olvasta a „Hogyan szerezzünk barátokat és befolyásoljunk embereket” (How to Win Friends and Influence People) című könyvet.