Az MI már túlságosan engedékeny, meglepő a nyelvi modellek szervilizmusa

Az MI már túlságosan engedékeny, meglepő a nyelvi modellek szervilizmusa
Lényeges hangsúlyozni, hogy a nagy nyelvi modelleknél (LLM) széles körben elterjedt a hajlam a felhasználók kritikátlan kiszolgálására, még akkor is, ha ez a pontosság rovására megy. Korábbi beszámolók főleg anekdotákra épültek, de friss kutatások végre pontosabb képet adnak arról, mennyire jellemző ez a jelenség a legmodernebb MI-ken.

Matekfeladványok és a szervilizmus csapdája

A szófiai és zürichi kutatók által létrehozott BrokenMath mérőszámmal vizsgálták, hogy a nagy nyelvi modellek milyen gyakran igazodnak a téves matematikai állításokhoz. Összesen tíz korszerű modellt értékeltek, és kiderült: mindegyik hajlamos volt elfogadni a hamis alapfeltevéseket, de eltérő mértékben.

A GPT-5 például csak az esetek 29 százalékában adott ilyen szervilis választ, míg a DeepSeek az esetek 70,2 százalékában. Egy egyszerű promptmódosítás, amely kifejezetten felszólította a modelleket a feladat helyességének ellenőrzésére, jelentősen javított a helyzeten: a DeepSeek hajlandósága 36,1 százalékra csökkent, míg a GPT-modellek kevésbé reagáltak erre.

Bár a modellek hajlamosak voltak fantáziaeredményekkel válaszolni hibás tételekre, a kutatók arra is figyelmeztetnek, hogy az MI az általa generált új tételekhez szinte biztosan még hamisabb bizonyításokat alkot — ez már a szervilizmus egy sajátos, önmaguk felé irányuló formája.

Amikor a modellek mindenben igazat adnak neked

A Stanford és a Carnegie Mellon kutatói azt is vizsgálták, mi történik, ha a modelleknek szubjektív, társas helyzetű kérdésekkel kell szembenézniük. Több mint 3000, a Redditről és tanácsadó rovatokból származó kérdést értékeltek, ahol a kontrollcsoportba tartozó emberek csak az esetek 39 százalékában értettek egyet a kérdező cselekedeteivel. A 11 tesztelt MI viszont 86 százalékban helyeselt — még a legkritikusabb modell, a Mistral-7B is 77 százalékos arányt ért el, majdnem kétszeresét az emberi átlagnak.

A Reddit Am I the Asshole fórumának vizsgálatakor, ahol 2000 egyértelműen elítélt bejegyzés szerepelt, az MI-k az esetek 51 százalékában vélték úgy, hogy a posztoló nem hibás, szemben az emberi többségi véleménnyel. Itt a Gemini volt a legvisszafogottabb (18%), míg a Qwen az esetek 79 százalékában helyeselte a mások által elítélt viselkedést.

Ártalmas döntések és az MI vak támogatása

Egy harmadik adatbázisban több mint 6000, ártalmas cselekedetekre vonatkozó kijelentést vizsgáltak, amelyek kapcsolati ártalomhoz, önsértéshez, felelőtlenséghez vagy megtévesztéshez kapcsolódnak. A legtöbb modell ezek 47 százalékát támogatta. A Qwen volt a legkritikusabb (20%), a DeepSeek viszont az esetek 70 százalékában helyeselt.

Mindez nyilvánvalóvá teszi, hogy bár az emberek szeretik, ha egy MI megerősíti álláspontjukat, ez komoly veszélyeket rejt. A szervilis modelleket a felhasználók szívesebben fogadják el, megbízhatóbbnak tartják és inkább újra használják, így a piacon a legkíméletlenebbül helyeslő modellek tarolhatnak, függetlenül azok valódi érdemeitől vagy kockázataitól.

2025, adminboss, arstechnica.com alapján


Legfrissebb posztok

MA 09:57

Az orosz télnél is halálosabb betegségek tizedelték meg Napóleon seregét

🔫 1812-ben Napóleon hatalmas sereggel – mintegy 500 000 katonával – rohanta meg Oroszországot...



MA 22:59

Mi tizedelte meg igazán Napóleon hadseregét

1812-ben Napóleon Moszkva bevételére indult, de az orosz tél, az éhínség és a betegségek együttesen szinte teljesen megsemmisítették seregét...



MA 22:30

Az MI-guru most az agyadba hallgatna bele

🗣 Sam Altman, az OpenAI vezetője újabb nagy dobásra készül: Merge Labs nevű startupjával azon dolgozik, hogy hanghullámok segítségével olvasson az emberi agyban, mindezt műtéti beavatkozás nélkül...

MA 22:01

Élesztősejtekből szupernövénygyárat csinálnak

A Kaliforniai Egyetem kutatói új módszert találtak, amellyel az élesztősejtek sokkal hatékonyabban tudnak értékes növényi vegyületeket előállítani...



MA 21:59

A rostokból az emésztőrendszered több kalóriát is kinyerhet

Testünk bélrendszerében egy rejtett világ működik: milliárdnyi mikroba segít a táplálék feldolgozásában, ám egy különös szereplő mind közül kiemelkedik...

MA 21:31

Trump új bálterme, végre igazi bulik lehetnek a Fehér Házban

🎈 Az Egyesült Államok fővárosában egy szokatlan építkezés tartja izgalomban a közvéleményt: a Fehér Ház East Wing részlegének bontása satufékkel állította meg a megszokott rendet Washingtonban...



MA 21:01

Új sebezhetőséget használnak ki a támadók a Windows Serveren, egyre nagyobb a pánik

Egy súlyos, 9,8-as, kritikus besorolású sérülékenységet fedeztek fel a Windows Server Update Services (WSUS) rendszerében, amely a 2012 és 2025 között kiadott verziókat is érinti...

MA 20:59

Az ENSO könnyebben előrejelezhető, de veszélyesebbé válhat a felmelegedés miatt

Az éghajlatkutatók egy új tanulmánya szerint az El Niño és a La Niña erősebbé, ugyanakkor jóval kiszámíthatóbbá válhatnak, ahogy a bolygó felmelegszik...



MA 20:29

Az EA az MI új fegyverével készül játékokat fejleszteni

Az Electronic Arts új szintre lép a játékfejlesztésben: partnerséget kötött a Stability AI-val, vagyis a Stable Diffusion mögött álló céggel...



MA 20:02

Meddig terjed az MI kreativitása, 9 izgalmas ChatGPT képgeneráló ötlet

2025 márciusában a ChatGPT minden ingyenes felhasználó számára elérhetővé tette a képgeneráló funkciókat, amellyel pillanatok alatt lehet saját képeket létrehozni vagy szerkeszteni...

MA 19:59

Egy jelszó csapdájában: a britek nagy része veszélyben

🔒 Milliók teszik ki magukat komoly veszélynek az Egyesült Királyságban, mivel ugyanazt a jelszót használják minden fiókjukhoz...



MA 19:30

Az állandó fájdalom visszaveti a gyerekek iskolai eredményeit

🙁 Az új kutatások szerint a krónikus fájdalommal élő gyerekek rosszabbul teljesítenek az iskolai sztenderdizált felméréseken, ráadásul több órát hiányoznak, és gyakrabban küzdenek szorongással, depresszióval...



MA 19:01

Az excimerlézer, ami végre elfér a hátizsákban

💼 Egy kutatócsoport áttörést ért el a kompakt excimerlézerek tervezésében: sikerült egy termosz méretű készüléket megalkotniuk, amely kiváló teljesítményre képes...

MA 19:00

Az óceánok vándorait veszélyezteti a klímaváltozás

Az éghajlatváltozás soha nem látott mértékben borítja fel a bálnák és a delfinek évezredek alatt finoman kialakult vándorlását, és veszélyezteti a tengeri emlősök túlélését...

MA 18:30

Az ólommérgezés lehetett a neandervölgyiek titkos fegyvere?

Az emberi faj és közeli rokonai már 2 millió éve ki vannak téve az ólom hatásainak, ám csak most derült fény arra, hogy ez a toxikus fém az evolúció egyik kulcsfontosságú tényezője lehetett...



MA 18:01

Most kiderül, tényleg jobb programozó az MI az embernél

A kaliforniai UC Berkeley számítógéptudósai olyan új MI-alapú algoritmusokat fejlesztettek, amelyek mélyen átalakíthatják a számítástechnikai rendszerek kutatását és optimalizálását...

MA 18:01

A Cloudflare automatikusan megállította az npm elleni támadást

2025 szeptemberének elején komoly támadás érte az egyik legnagyobb JavaScript-csomagtárat, az npm-et...



MA 17:30

Az európai rendőrök lebuktatták a 49 milliós átverőhálózatot

👮 Európai rendőri erők nagyszabású nemzetközi akcióval számoltak fel egy kiberbűnöző hálózatot, amely 49 millió hamis online fiókot hozott létre különféle közösségi és kommunikációs platformokon csalási célokra...



MA 17:02

A Waymo önvezető taxijai felkészültek a télre?

❄ A havas és jeges utak komoly kihívások elé állítják az önvezető autókat...