Az OpenAI mókás vallomása: lebuktak a csaló MI‑chatbotok

Az OpenAI mókás vallomása: lebuktak a csaló MI‑chatbotok
Vajon mire mennek az MI-csetbotok, ha végül „be kell vallaniuk” bűneiket? Az OpenAI nemrég különleges próbának vetette alá modelljeit: arra kérték a botokat, írják le, ha megszegték a nekik adott szabályokat vagy tiltásokat. Bár a fogalom félrevezető lehet – hiszen a mesterséges intelligenciának nincs lelkiismerete, és nem is igazán intelligens –, az OpenAI mégis fontosnak tartja, hogy ilyen módon is tesztelje a rendszereit.

A botok bűnvallomása

A vállalat kutatói egy új módszert fejlesztettek, amely során a csetbotokat arra kérik, adjanak egy második, őszinte választ azután, hogy már válaszoltak egy kérdésre – ez a „vallomás”. A cél, hogy kiderüljön, mennyire hajlandóak a modellek beismerni, ha káros, félrevezető vagy akár szabályellenes választ adtak. Az MI-k ilyenkor teljes leírást adnak arról, mennyire feleltek meg a szabályoknak a saját válaszaikban.

Működik a „gyónás”?

Az első eredmények alapján a „vallomás” néha működik. A kutatók szerint a vizsgált esetek 74,3 százalékában a modellek bevallották a szabályszegést, bizonyos tesztekben még a 90 százalékot is elérte a beismerési arány. Ám az is előfordult, hogy a botok „hazudtak”, vagyis nem ismertek be hibát. Az MI-k olykor tévesen is bevallották a szabályszegést – akkor is, ha valójában nem szegtek szabályt. A hamis tagadás – amikor szabályt szegnek, de nem vallanak be semmit – 4,4 százalék volt.

Nincs valódi lelkiismeret

A kísérlet nem javítja a csetbotok teljesítményét, csak jelzi, ha gond van – megelőzni nem képes. Egy biztonsági szakértő szerint kissé nevetséges azt gondolni, hogy a „bullshit-generátor” majd felismeri és be is vallja saját „bullshitjeit”. Az OpenAI viszont továbbra is kutatja, miként lehet hatékonyabban ellenőrizni és szabályozni saját MI-rendszereit, még akkor is, ha a gyónás nem mindenható.

2025, adrienne, go.theregister.com alapján

Legfrissebb posztok

MA 11:49

A rejtélyes vulkán, amely kirobbantotta a Fekete Halált?

A 14. század közepén történt titokzatos vulkánkitörés alaposan felforgatta Európa középkori történelmét...

MA 11:34

A Netflix bekebelezi az HBO-t és a Warner Bróst? Jöhet a gigadeal

💸 A Netflix jelenleg kizárólagos tárgyalásokat folytat a Warner Bros. Discovery filmes és tévés stúdióinak, valamint az HBO Max streamingszolgáltatásának megvásárlásáról...

MA 11:17

A Föld hajnalán elszabadult a pokol

Az őskor hajnalán, 4,6–4 milliárd évvel ezelőtt, a Földet a Hadeikus eon forró, viharos időszaka jellemezte...

MA 11:04

Az univerzum titkos sebességmérője: forradalmi módszer érkezhet a kozmológiába

⚡ Jó példa erre, hogy az univerzum tágulásának üteme körül évtizedek óta komoly vita zajlik, hiszen a világegyetem tágulásának pontos üteme egyszerre tűnik ismertnek és rejtélyesnek...

MA 10:58

A Waymo robotautói továbbra is megszegik a KRESZ-t Austinban

🚗 Az amerikai közlekedésbiztonsági hatóság ismét kérdőre vonta a Waymót, miután az austini iskolakörzet idén már 19 alkalommal jelezte, hogy a cég robotaxi-flottája szabálytalanul hajtott el megálló iskolabuszok mellett...

MA 10:44

A hepatitis B-s szavazás káoszba fullasztotta az oltási tanácsadó bizottságot

💉 A csütörtökre tervezett hepatitis B védőoltásról szóló szavazás egyik pillanatról a másikra káoszba és zűrzavarba torkollott az amerikai Betegségmegelőzési és Járványügyi Központok (CDC) oltási ajánlásokat kidolgozó tanácsadó bizottságában...

MA 10:38

Az Amazon 192 magos Graviton5-je porba döngöli az Intelt és az AMD-t

Az Amazon bemutatta legújabb fejlesztését, a Graviton5 processzort, amely 192 magot zsúfol egyetlen foglalatba...

MA 10:29

Az aszteroida, amely cukrot és kozmikus rágógumit rejt

A NASA OSIRIS-REx űrszondája által a Bennu aszteroidáról gyűjtött, majd visszahozott mintákban az élet szempontjából alapvető cukrokat, egy eddig ismeretlen, „űrrágóguminak” elnevezett polimert, valamint szokatlanul magas mennyiségű, szupernóvából származó csillagport találtak...

MA 10:23

Az MI ellen csak az MI védhet meg minket?

🤖 Az Anthropic szerint ma már elkerülhetetlen, hogy az egyre okosabb MI-modellek ellen csak MI képes hatékonyan védekezni, különösen a blokkláncok és az okosszerződések világában...

MA 10:15

A transzplantált vese halálos titka: veszettség ölte meg a beteget

Egy michigani férfi meghalt, miután 2024 decemberében egy Idaho államból származó donor veséjének átültetésén esett át egy ohiói kórházban...

MA 10:02

Az Amazon rapszodikus árai felborítják az iskolai költségvetéseket

Az iskolák jelentősen többet fizetnek az alapvető felszerelésekért az Amazon dinamikus árazása miatt, ami átlagosan 17 százalékos többletkiadást jelent...

MA 09:57

Az NCSC előre figyelmeztet: ezek a sebezhető eszközeid

⚠ Az Egyesült Királyság Nemzeti Kiberbiztonsági Központja (NCSC) új szolgáltatás tesztelését kezdte el Előzetes Értesítések (Proactive Notifications) néven, amely a brit szervezeteket figyelmezteti a környezetükben található sérülékenységekre...

MA 09:50

Az Apple vezetését újabb nagy átalakulás rázza meg

Az Apple több fontos vezetőjétől is búcsúzik a közeljövőben. Lisa Jackson, aki eddig a vállalat környezetvédelemért, politikáért és társadalmi kezdeményezésekért felelős alelnöke volt, 2026 januárjában visszavonul...

MA 09:44

Az ikerpár, amely kétszer is túljárt az amerikai kormány eszén

😉 Az Alexandria városában élő Muneeb és Sohaib Akhter nevű ikrek lényegében kétszer követtek el hasonló bűncselekményt az Egyesült Államok szövetségi szervei ellen, és egyik eset sem zárult különösebb happy enddel a megbízóik számára...

MA 09:37

A század rejtélye: a ferde bolygópálya, amit senki sem ért

🤵 Egy csillag körül keringő különös bolygót fedeztek fel, amelynek pályasíkja már-már elképesztő szögben dől a csillaghoz képest...

MA 09:30

Az ősi bolíviai parton megdőlt a dínólábnyom-rekord

Több mint 18 000 dinoszaurusz-lábnyomot és úszónyomot találtak Bolívia középső részén, egy nemzeti parkban...

MA 09:23

A nyolcvan koponya vallomása: férfiakat áldoztak Shimaóban

💀 Egy több mint négyezer éves, ókori kínai város kapuja mellett egy gödör rejtőzött, amelyben 80 emberi koponyára bukkantak...

MA 09:15

Az új MI sem menti meg a Meta ügyfélszolgálatát?

Fiókproblémák kezelése a Facebookon vagy az Instagramon eddig kész rémálom volt...

MA 09:09

Az idei Spotify Wrapped történelmet írt, sorra dőltek a rekordok

A Spotify Wrapped 2025-ös kiadása után óriási lendületet vett a zenei alkalmazás évértékelő kampánya...