
A botok bűnvallomása
A vállalat kutatói egy új módszert fejlesztettek, amely során a csetbotokat arra kérik, adjanak egy második, őszinte választ azután, hogy már válaszoltak egy kérdésre – ez a „vallomás”. A cél, hogy kiderüljön, mennyire hajlandóak a modellek beismerni, ha káros, félrevezető vagy akár szabályellenes választ adtak. Az MI-k ilyenkor teljes leírást adnak arról, mennyire feleltek meg a szabályoknak a saját válaszaikban.
Működik a „gyónás”?
Az első eredmények alapján a „vallomás” néha működik. A kutatók szerint a vizsgált esetek 74,3 százalékában a modellek bevallották a szabályszegést, bizonyos tesztekben még a 90 százalékot is elérte a beismerési arány. Ám az is előfordult, hogy a botok „hazudtak”, vagyis nem ismertek be hibát. Az MI-k olykor tévesen is bevallották a szabályszegést – akkor is, ha valójában nem szegtek szabályt. A hamis tagadás – amikor szabályt szegnek, de nem vallanak be semmit – 4,4 százalék volt.
Nincs valódi lelkiismeret
A kísérlet nem javítja a csetbotok teljesítményét, csak jelzi, ha gond van – megelőzni nem képes. Egy biztonsági szakértő szerint kissé nevetséges azt gondolni, hogy a „bullshit-generátor” majd felismeri és be is vallja saját „bullshitjeit”. Az OpenAI viszont továbbra is kutatja, miként lehet hatékonyabban ellenőrizni és szabályozni saját MI-rendszereit, még akkor is, ha a gyónás nem mindenható.
