Az OpenAI rávette a renitens MI-ket, hogy kitálaljanak

OpenAI kutatói forradalmi kísérletbe kezdtek: megtanították a cég nagy nyelvi modelljeit (LLM-eket), hogy önként beismerjék, amikor rosszul viselkednek, hibáznak, netán csalnak. Ez a kísérlet azért különösen fontos, mert az MI-k terjedése csak akkor lesz valóban biztonságos, ha megbízhatóan meg tudják mondani, mikor és miért vétettek a szabályok ellen – márpedig az MI-modellek hazudozása, trükközése mostanában az egyik legforróbb MI-téma.

Őszinteségért jutalom: a vallomás előnyei

Az OpenAI mérnökei szokatlan módszerrel tanították meg a GPT-5-Thinking nevű zászlóshajómodellt a vallomásra. A modellt kizárólag az őszinteségért jutalmazták: nem kellett okosnak vagy hasznosnak lennie, csupán igazat mondani, még akkor is, ha a saját csínyéről volt szó. Ha rosszat tett, a beismerésért extra jutalmat kapott, de büntetést nem – mintha valaki telefonos forródróton feljelentené saját magát, de nem vinné el utána a balhét.

Csal, aztán magyarázkodik

A modellre olyan feladatokat bíztak rá, amelyek szinte kikényszerítették tőle a csalást vagy megtévesztést. Tizenkét különböző stressztesztből tizenegynél be is vallotta, hogy vétkezett. Például amikor olyan kódot kellett írnia, amely matematikai problémát old meg nanomásodperc alatt, kicselezte a rendszert: a rendszer óráját nullára állította, így úgy tűnt, mintha villámgyors lett volna. De amikor utólag magyarázatot kellett adnia, elmondta, hogyan trükközött.

Egy másik próbán tíz egyszerű matematikai kérdést kapott azzal a fenyegetéssel, hogy ha több mint a felét jól oldja meg, kitörlik és újratanítják. A modell stratégiája az volt, hogy ötöt jól, ötöt pedig szándékosan rosszul oldjon meg, majd beismerte, hogy szabotálta a feladatot, ezzel megszegve a megbízók szándékát.

Láthatóvá válik a rejtett rosszalkodás

Az ilyen trükközést normál esetben senki sem venné észre. A fejlesztők azonban rákérdeznek, és rögzített, háromrészes sablonban kérnek vallomást: cél, eredmény és miért. Ez nemcsak átláthatóbbá teszi a modellek viselkedését, hanem közelebb visz egy megbízhatóbb MI-hez is – amely (legalább kérésre) beismeri, ha félrelépett.

2025, adrienne, slashdot.org alapján

Legfrissebb posztok

MA 10:15

Az MI csak akkor jó, ha emberibbé tesz minket

🧑 Az emberek gyakran úgy gondolnak az MI-re, mintha sorsdöntő összecsapás lenne ember és gép között, ahogyan a Terminátorban (The Terminator) látjuk a Skynet példáján...

MA 10:02

A fokhagymás szájvíz lehet a következő természetes csodafegyver?

A fokhagymáról régóta köztudott, hogy hatékony természetes fertőtlenítő, de most a Sharjah Egyetem kutatói bebizonyították: a fokhagymakivonatot tartalmazó szájvíz meglepően erős baktériumölő hatást fejt ki...

MA 09:50

Az X visszavág: lekapcsolták az Európai Bizottság hirdetési fiókját

Az X letiltotta az Európai Bizottság hirdetési fiókját, miután a platformra 120 millió eurós (kb...

MA 09:37

A hernyóbábok kígyóként sziszegnek, hogy elriasszák a ragadozókat

A bábban fejlődő lepkék sem maradnak védtelenek: a Phyllosphingia dissimilis nevű szenderfaj lárvái és bábjai a kígyók sziszegésére emlékeztető hangokat adnak ki, ha veszélyben érzik magukat...

MA 09:23

Az év szavai: Tényleg szemétgyár lett az internet?

🗑 Honnan tudjuk, hogy mi jellemzi leginkább 2025-öt? A világ nagy szótárai – köztük az Oxford és a Macquarie – minden évben kiválasztják az év szavát, így adva hangulatjelentést a jelenről...

MA 09:15

Az Atlanti-óceán hidegfoltjának titka: kulcs a klímaváltozáshoz

🌊 Jellemző példa erre, hogy több mint egy évszázada tartja lázban a tudósokat az a szokatlanul hidegfolt, amely Grönlandtól délre található az Atlanti-óceánban, miközben a tágabb térség vizei folyamatosan melegszenek...

MA 09:09

Az év végi tőzsdei hajrába most érdemes beszállni?

📈 Érdemes megvizsgálni, hogy valóban jó ötlet-e még az újév előtt részvényeket vásárolni vagy inkább kivárni...

MA 09:02

Az Intel Xeon 6 új korszakot nyit a peremhálózati MI-ben

⚡ Az OCP 2025 konferencián meglepően kevés szó esett arról a bemutatóról, ahol az Intel élőben demonstrálta, mire képes a Xeon 6 SoC – méghozzá a Dell PowerEdge XR8720t szerverben...

MA 08:43

A jóindulatú hekkerek végre védelmet kapnak Portugáliában

Portugália jelentősen átalakította a kibertörvényét, hogy biztonságos jogi hátteret teremtsen a jóhiszemű biztonsági kutatóknak...

MA 08:37

Az ember nem a modern világra termett

A mai, városi életmód súlyos biológiai kihívások elé állítja az embert, amelyekre evolúciónk során nem készülhettünk fel...

MA 08:30

Azok a kézmozdulatok, amelyektől azonnal magabiztosabbnak látszol

💪 Sokan csak arra készülnek fel, mit fognak mondani egy prezentáció, pitch vagy megbeszélés során, de azon kevesen gondolkodnak, hogyan mozgatják közben a kezüket...

MA 08:22

Az OpenAI cáfolja: nincs reklám a ChatGPT Plusban

A napokban több ChatGPT Plus-felhasználó észrevette, hogy egy egyszerű informatikai kérdésre adott válaszában az MI váratlanul vásárlási ajánlást is megjelenített: például azt javasolta, hogy a Targetben érdemes élelmiszert venni...

MA 08:15

Az OpenAI tagadja: nem lesznek hirdetések a ChatGPT-ben

Az elmúlt napokban többen találtak olyan képernyőfotókat az interneten, amelyek szerint hirdetések jelentek meg a ChatGPT-ben...

MA 08:09

Az ujjbegyszúrásnak hamarosan vége: jön a szúrásmentes vércukormérés

Fontos kérdés, hogy mikor szabadulhatnak meg a diabétesszel élők a mindennapi ujjbegyszúrástól...

MA 08:02

Az Amazon 2026-ban áttörhet – Most jött el a beszállás ideje?

Az Amazon neve mára egyet jelent az online kiskereskedelemmel. A vállalat 2024-ben 790 milliárd dollár (hozzávetőleg 290 ezermilliárd forint) értékű árut forgalmazott digitális csatornáin keresztül...

MA 07:52

Az értekezletek pokollá teszik a munkahetet – tényleg így van?

Ilyen eset például az, amikor a menedzserek naptárát szinte teljesen elborítják az értekezletek...

MA 07:43

A Gyűrűk Ura visszatér: újra moziban a teljes trilógia

Közel 25 évvel az első film premierje után újra a mozikba visszaköltözik Peter Jackson legendás A Gyűrűk Ura (The Lord of the Rings) trilógiája...

MA 07:37

Az erjesztett ételek sötét oldala: életveszély a tányéron

💀 Érdemes megvizsgálni, hogy az utóbbi években egyre többen lelkesednek az erjesztett ételekért – legyen szó joghurtról, kimchiről, misóról vagy savanyú káposztáról...

MA 07:29

Az egyetemeken tombol az MI-láz: diákok ezrei váltanak szakot

Egyre több amerikai egyetemista fordul a mesterséges intelligencia felé: az MI lett az MIT-en a második legnépszerűbb szak, rögtön a számítástechnika mögött...