2025. 12. 05., 10:50

Az OpenAI mókás vallomása: lebuktak a csaló MI‑chatbotok

Az OpenAI mókás vallomása: lebuktak a csaló MI‑chatbotok
Vajon mire mennek az MI-csetbotok, ha végül „be kell vallaniuk” bűneiket? Az OpenAI nemrég különleges próbának vetette alá modelljeit: arra kérték a botokat, írják le, ha megszegték a nekik adott szabályokat vagy tiltásokat. Bár a fogalom félrevezető lehet – hiszen a mesterséges intelligenciának nincs lelkiismerete, és nem is igazán intelligens –, az OpenAI mégis fontosnak tartja, hogy ilyen módon is tesztelje a rendszereit.

A botok bűnvallomása

A vállalat kutatói egy új módszert fejlesztettek, amely során a csetbotokat arra kérik, adjanak egy második, őszinte választ azután, hogy már válaszoltak egy kérdésre – ez a „vallomás”. A cél, hogy kiderüljön, mennyire hajlandóak a modellek beismerni, ha káros, félrevezető vagy akár szabályellenes választ adtak. Az MI-k ilyenkor teljes leírást adnak arról, mennyire feleltek meg a szabályoknak a saját válaszaikban.

Működik a „gyónás”?

Az első eredmények alapján a „vallomás” néha működik. A kutatók szerint a vizsgált esetek 74,3 százalékában a modellek bevallották a szabályszegést, bizonyos tesztekben még a 90 százalékot is elérte a beismerési arány. Ám az is előfordult, hogy a botok „hazudtak”, vagyis nem ismertek be hibát. Az MI-k olykor tévesen is bevallották a szabályszegést – akkor is, ha valójában nem szegtek szabályt. A hamis tagadás – amikor szabályt szegnek, de nem vallanak be semmit – 4,4 százalék volt.

Nincs valódi lelkiismeret

A kísérlet nem javítja a csetbotok teljesítményét, csak jelzi, ha gond van – megelőzni nem képes. Egy biztonsági szakértő szerint kissé nevetséges azt gondolni, hogy a „bullshit-generátor” majd felismeri és be is vallja saját „bullshitjeit”. Az OpenAI viszont továbbra is kutatja, miként lehet hatékonyabban ellenőrizni és szabályozni saját MI-rendszereit, még akkor is, ha a gyónás nem mindenható.

2025, adrienne, go.theregister.com alapján

Legfrissebb posztok

MA 07:25

Az új Trump-tarifák földindulást okoztak a kriptópiacon

💰 Jó példa erre, amikor egyetlen politikai bejelentés hullámokat vet a pénzügyi piacokon — most éppen a kriptovilág volt a legnagyobb vesztese...

MA 07:17

Az univerzum szeme: lélegzetelállító új Webb-kép a Helix-ködről

👀 Néha nem árt kikapcsolni, és a világegyetem vizsgálata épp ideális menedék lehet...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 1/21

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     30 day Fitness Coach at home (iPhone/iPad)A 30 Day FITNESS coach at home App egy ingyenes alkalmazás, amellyel otthon, 30 nap alatt fejleszthetők a hasizmai...

MA 07:09

Az új csavar: a Verizon-mobilok egy évig nem függetleníthetők

🔒 A Verizon mostantól a TracFone hálózatán és leányvállalatainál vásárolt telefonokat 365 napig nem oldja fel...

MA 07:03

A mesterséges intelligencia miatti szorongásról így beszélj őszintén a csapatoddal

Ilyen volt például, amikor a járvány alatt a vezetők rájöttek, hogy a csapat egységét akkor is fenn kell tartani, amikor teljes a bizonytalanság...

MA 06:51

Az X új MI‑algoritmusa felforgatja az üzleti világot

🚀 Az X, korábbi nevén Twitter, megnyitotta új, MI-alapú ajánlórendszerének forráskódját, amit mostantól az Apache 2...

MA 06:43

Miért nem bírja a tempót Európa a startupversenyben?

Európa gazdasága az elmúlt évtizedekben rengeteget fejlődött, de hiába közelíti meg az Egyesült Államokét méretben, továbbra is alig születnek világszinten meghatározó, piacvezető vállalatok...

MA 06:33

Az OpenAI megmondja, hány éves vagy – de hihetünk neki?

🕵 Az OpenAI egy világszerte elérhető életkorelemző rendszert vezet be a ChatGPT-fiókoknál, hogy kiszűrje a kiskorú felhasználókat...

MA 06:26

Az ősrobbanás hajnala: a Hajnal istennője szupernóva a JWST felvételén

Mindössze egymilliárd évvel az univerzum születése után robbant fel egy ősi csillag...

MA 06:18

A YouTube újabb bakija: eltűntek az extra feliratok

Az elmúlt napokban több YouTube-videós is észrevette, hogy eltűntek a platformról a speciális, extra testreszabható SRV3-feliratok – ráadásul mindenféle előzetes értesítés nélkül...

MA 06:05

Történelmi események a mai napon (Január 21.)

Rendhagyó nap a történelemben: kivégzik XVI. Lajost, összeül az első Dáil Éireann, és vízre kerül az első nukleáris tengeralattjáró...

MA 06:02

Az MI-válaszok újabb álhíráradatot zúdítanak ránk

A technológiai világ szinte vakon követi a mesterséges intelligencia ígéreteit: a Google beépíti az MI-t a Chrome-ba, vezető techcégek már a weboldalak végét jósolják...

kedd 23:09

Az Atlanti-óceán mélye riasztóan öregszik – mi áll mögötte?

A mélytengeri vízkörforgás kulcsszerepet játszik a Föld éghajlatában, de új kutatások szerint az Atlanti-óceán északi régiójában egyértelműen lassul a víz megújulása...

kedd 14:12

Már megint kapott egyet a Meta – vége a VR-álomnak

💸 A Meta négy évvel ezelőtt még nagy reményekkel, sőt, teljes vállalati identitásváltással vágott bele a virtuális valóság meghódításába...

kedd 14:02

Az új kvantumhatár: a spin mérete felforgatja a Kondo-hatást

Külön említést érdemel, hogy a kondenzált anyagok fizikájában a kollektív viselkedés egészen szokatlan jelenségeket eredményez...

kedd 13:55

Mégsem bíznak a GoFundMe-ben – miért adakoznak mégis az amerikaiak?

💰 Az Egyesült Államokban ma már szinte minden tragédia együtt jár a közösségi adománygyűjtéssel...

kedd 13:37

Az EOS C50 továbbra is verhetetlen választás a filmeseknek

🎬 Az új Canon EOS R6 Mark III megjelenésével sokan úgy gondolják, minden korábbi modellt érdemes elfelejteni, pedig a Canon EOS C50 komoly érvekkel száll versenybe a professzionális videókészítők számára...

kedd 13:19

Az összes bolt polcairól eltűnik a listeriás csirkemell

🚨 Majdnem hét tonna, azaz 6 220 kilogramm, készre sütött, grillezett csirkemellfilét kellett visszahívni Listeria-fertőzés gyanúja miatt...

kedd 13:01

Egy apró böngésző rendet vág a Chrome-ban, Edge-ben és Firefoxban

A Just the Browser egy friss fejlesztés, amelyet azért hoztak létre, hogy megszabadítsa a böngészőket a felesleges funkcióktól, anélkül, hogy új böngészőt kellene telepíteni vagy forkot használni...