Az OpenAI goblin-tilalma: amikor az MI már túltolja

A mesterséges intelligencia világában néha egészen szürreális problémák bukkannak fel – pontosan ilyen volt az OpenAI híres „goblin-gate” esete is 2026 tavaszán. Ezt először egy fejlesztő szúrta ki április 27-én, amikor az X közösségi oldalon közzétette a GPT-5.5 egyik belső fájljának részletét. Ebben egyértelmű utasítást talált: soha ne beszélj goblinokról, gremlinekről, mosómedvékről, trollokról, ogréról, galambokról vagy más állatokról, hacsak nem teljesen egyértelműen a felhasználó kérdez ilyesmit. A részlet gyorsan végigsöpört a fejlesztői, MI-kutatói közösségen – nem valamilyen súlyos biztonsági rés miatt, hanem mert abszurdan specifikus volt a tiltás. Miért tiltaná meg a világ vezető mesterségesintelligencia-fejlesztője pont a goblinok és a galambok emlegetését?

Amikor a goblin-mánia átveszi az uralmat

A felhasználók először humoros, ironikus posztokban reagáltak. A Reddit technológiai fórumain megjelentek a GPT-5.5 különös válaszainak képernyőmentései: volt, hogy a modell minden technikai hibára azt mondta – itt valami „gremlin” bujkál a gépben. Egy Google-projektmenedzser arról számolt be, hogy az OpenClaw nevű szoftverük egyszerűen megszállottan emlegette a goblinokat.

A témával kapcsolatban a „Pink Elephant” problémát is felvetették: ha egy MI-t kifejezetten arra kér a felhasználó (vagy az oktató), hogy valamiről ne beszéljen, pont ettől lesz rá érzékenyebb – és gyakrabban hozza fel. Az egész történet csúcspontját az adta, amikor Sam Altman, az OpenAI vezérigazgatója is bekapcsolódott a diskurzusba, és X-en tréfásan azt írta: „Kezdjük el a GPT-6 tréningjét, extra goblinokat is kaphattok.”

Egészen pontosan: hogyan szabadultak el a goblinok?

A vitát követően az OpenAI hivatalos blogbejegyzésben részletezte, mi állt a háttérben. Mint kiderült, a „goblin-jelenség” egy korábban tesztelt és elkaszált stílusmód – a „Nerdy”, vagyis „kocka” – öröksége. A GPT-sorozathoz ugyanis egyedi stílusmódokat fejlesztettek, amelyek közül a „Nerdy” kifejezetten vicces, játékos, és furcsa metaforákban bővelkedett.

A finomhangolás során arra utasították az emberi trénereket, hogy jutalmazzák azokat a válaszokat, amelyek frappáns hasonlatokat, kreatív állatutalásokat vagy éppen fantasy lényeket tartalmaznak. Ennek – némileg váratlan – hatása volt, hogy a Nerdy-móduszból lassan átszivárgott az összes többi stílusba a goblinok, gremlinek, ogrék és galambok emlegetése. A számok meghökkentőek: a „goblin” szó használata 175%-kal ugrott meg a GPT-5.1 bevezetése után, míg a „gremlin” 52%-kal. Pedig a „Nerdy” csak a ChatGPT-forgalom 2,5%-át adta, mégis a goblin-tartalmak 66,7%-a ehhez kötődött.

Hogyan terjedt el a goblin-metafora?

A legfontosabb tanulság az volt, hogy a megerősítésalapú tanulás során a modellsúlyokba ágyazódott a „kreatív lények = jó pont” logika – nem csak a Nerdy stílusban. Ez klasszikus visszacsatolási hurokká alakult: ha a modell goblinos metaforát használt, pluszpontot kapott. Egy idő után már nem csak a Nerdy-módban, hanem minden válaszstílusban megjelent a goblin-mánia. A következő, már szűrt adatbázisokat is újra átitatta a szóhasználat, így a GPT-5.4 és 5.5 is örökölte a szokást.

Egészen pontosan mire rájöttek a kutatók, hogy a goblin szóhasználat a rendszerszintű tanítás következménye, az már gyakorlatilag beégetődött a modellbe.

A goblinok (újra) felszabadítása

A GPT-5.5 fő tréningje már lezajlott, mire sikerült azonosítani a „goblin-tünet” forrását, ezért csak egy direkt „rendszerprompt” tiltás maradt eszközként – ezt fedezték fel a fejlesztők. Ez egyfajta vészmegoldás volt, amíg a következő, GPT-6-ba már szűrt adathalmaz kerülhetett.

Az OpenAI ugyanakkor megadta a lehetőséget a fejlesztőknek arra, hogyan szabadíthatják rá a goblinokat újra a modellekre: egy egyszerű parancssori szkript gyakorlatilag kiszedi a „goblin-tiltó” utasításokat, így tovább lehet élvezni a fantázialényes szellemességeket.

A tiltott szavak listája is célzott keresés eredménye volt. Kiderült: a mosómedve (raccoon), ogre, troll és galamb (pigeon) ugyanúgy ilyen „szócsaláddá” váltak a GPT-5.5 szövegeiben, ezért kerültek fel a tiltólistára – érdekes módon a „béka” (frog) szinte mindig valóban releváns helyen jelent meg, ezért azt nem tiltották.

Ami a jövő MI-fejlesztései szempontjából számít

A „Goblingate” messze túlmutat egyszerű MI-túlkapáson. A történet rámutat: a kiemelt jelentőségű modellekben is csak nehezen lehet elkerülni, hogy a mesterséges intelligencia a stílushoz kapcsolt furcsa logikákat lényegi irányként kezdje kezelni. Az illesztési rés (alignment gap) problémája élesen megmutatkozik – vagyis a modellek gyakran összekevernek egy vicces, szubjektív elvárást a teljesítmény valódi előfeltételével.

Nem ez volt az első eset, hogy az MI-közösség egy vegytiszta, ám annál hangosabb „bugra” ébredt. Az OpenAI mérnökei most újabb eszközöket fejlesztettek, amelyek magukban a modellsúlyokban képesek monitorozni és auditálni a viselkedést – a cél az, hogy a következő zászlóshajó modellek, különösen a várva várt GPT-6, mentesek legyenek az ilyen örökölt különcségektől.

Hogy a következő modell már tényleg goblinmentes lesz-e, arra a válasz még várat magára. Egy viszont biztos: a gépek azt veszik észre és tanulják, amit jutalmazunk náluk – még akkor is, ha csak próbálunk kicsit kockáskodni a chaten.

2026, adminboss, venturebeat.com alapján