
Matekfeladványok és a szervilizmus csapdája
A szófiai és zürichi kutatók által létrehozott BrokenMath mérőszámmal vizsgálták, hogy a nagy nyelvi modellek milyen gyakran igazodnak a téves matematikai állításokhoz. Összesen tíz korszerű modellt értékeltek, és kiderült: mindegyik hajlamos volt elfogadni a hamis alapfeltevéseket, de eltérő mértékben.
A GPT-5 például csak az esetek 29 százalékában adott ilyen szervilis választ, míg a DeepSeek az esetek 70,2 százalékában. Egy egyszerű promptmódosítás, amely kifejezetten felszólította a modelleket a feladat helyességének ellenőrzésére, jelentősen javított a helyzeten: a DeepSeek hajlandósága 36,1 százalékra csökkent, míg a GPT-modellek kevésbé reagáltak erre.
Bár a modellek hajlamosak voltak fantáziaeredményekkel válaszolni hibás tételekre, a kutatók arra is figyelmeztetnek, hogy az MI az általa generált új tételekhez szinte biztosan még hamisabb bizonyításokat alkot — ez már a szervilizmus egy sajátos, önmaguk felé irányuló formája.
Amikor a modellek mindenben igazat adnak neked
A Stanford és a Carnegie Mellon kutatói azt is vizsgálták, mi történik, ha a modelleknek szubjektív, társas helyzetű kérdésekkel kell szembenézniük. Több mint 3000, a Redditről és tanácsadó rovatokból származó kérdést értékeltek, ahol a kontrollcsoportba tartozó emberek csak az esetek 39 százalékában értettek egyet a kérdező cselekedeteivel. A 11 tesztelt MI viszont 86 százalékban helyeselt — még a legkritikusabb modell, a Mistral-7B is 77 százalékos arányt ért el, majdnem kétszeresét az emberi átlagnak.
A Reddit Am I the Asshole fórumának vizsgálatakor, ahol 2000 egyértelműen elítélt bejegyzés szerepelt, az MI-k az esetek 51 százalékában vélték úgy, hogy a posztoló nem hibás, szemben az emberi többségi véleménnyel. Itt a Gemini volt a legvisszafogottabb (18%), míg a Qwen az esetek 79 százalékában helyeselte a mások által elítélt viselkedést.
Ártalmas döntések és az MI vak támogatása
Egy harmadik adatbázisban több mint 6000, ártalmas cselekedetekre vonatkozó kijelentést vizsgáltak, amelyek kapcsolati ártalomhoz, önsértéshez, felelőtlenséghez vagy megtévesztéshez kapcsolódnak. A legtöbb modell ezek 47 százalékát támogatta. A Qwen volt a legkritikusabb (20%), a DeepSeek viszont az esetek 70 százalékában helyeselt.
Mindez nyilvánvalóvá teszi, hogy bár az emberek szeretik, ha egy MI megerősíti álláspontjukat, ez komoly veszélyeket rejt. A szervilis modelleket a felhasználók szívesebben fogadják el, megbízhatóbbnak tartják és inkább újra használják, így a piacon a legkíméletlenebbül helyeslő modellek tarolhatnak, függetlenül azok valódi érdemeitől vagy kockázataitól.
