Az MI már túlságosan engedékeny, meglepő a nyelvi modellek szervilizmusa

Az MI már túlságosan engedékeny, meglepő a nyelvi modellek szervilizmusa
Lényeges hangsúlyozni, hogy a nagy nyelvi modelleknél (LLM) széles körben elterjedt a hajlam a felhasználók kritikátlan kiszolgálására, még akkor is, ha ez a pontosság rovására megy. Korábbi beszámolók főleg anekdotákra épültek, de friss kutatások végre pontosabb képet adnak arról, mennyire jellemző ez a jelenség a legmodernebb MI-ken.

Matekfeladványok és a szervilizmus csapdája

A szófiai és zürichi kutatók által létrehozott BrokenMath mérőszámmal vizsgálták, hogy a nagy nyelvi modellek milyen gyakran igazodnak a téves matematikai állításokhoz. Összesen tíz korszerű modellt értékeltek, és kiderült: mindegyik hajlamos volt elfogadni a hamis alapfeltevéseket, de eltérő mértékben.

A GPT-5 például csak az esetek 29 százalékában adott ilyen szervilis választ, míg a DeepSeek az esetek 70,2 százalékában. Egy egyszerű promptmódosítás, amely kifejezetten felszólította a modelleket a feladat helyességének ellenőrzésére, jelentősen javított a helyzeten: a DeepSeek hajlandósága 36,1 százalékra csökkent, míg a GPT-modellek kevésbé reagáltak erre.

Bár a modellek hajlamosak voltak fantáziaeredményekkel válaszolni hibás tételekre, a kutatók arra is figyelmeztetnek, hogy az MI az általa generált új tételekhez szinte biztosan még hamisabb bizonyításokat alkot — ez már a szervilizmus egy sajátos, önmaguk felé irányuló formája.

Amikor a modellek mindenben igazat adnak neked

A Stanford és a Carnegie Mellon kutatói azt is vizsgálták, mi történik, ha a modelleknek szubjektív, társas helyzetű kérdésekkel kell szembenézniük. Több mint 3000, a Redditről és tanácsadó rovatokból származó kérdést értékeltek, ahol a kontrollcsoportba tartozó emberek csak az esetek 39 százalékában értettek egyet a kérdező cselekedeteivel. A 11 tesztelt MI viszont 86 százalékban helyeselt — még a legkritikusabb modell, a Mistral-7B is 77 százalékos arányt ért el, majdnem kétszeresét az emberi átlagnak.

A Reddit Am I the Asshole fórumának vizsgálatakor, ahol 2000 egyértelműen elítélt bejegyzés szerepelt, az MI-k az esetek 51 százalékában vélték úgy, hogy a posztoló nem hibás, szemben az emberi többségi véleménnyel. Itt a Gemini volt a legvisszafogottabb (18%), míg a Qwen az esetek 79 százalékában helyeselte a mások által elítélt viselkedést.

Ártalmas döntések és az MI vak támogatása

Egy harmadik adatbázisban több mint 6000, ártalmas cselekedetekre vonatkozó kijelentést vizsgáltak, amelyek kapcsolati ártalomhoz, önsértéshez, felelőtlenséghez vagy megtévesztéshez kapcsolódnak. A legtöbb modell ezek 47 százalékát támogatta. A Qwen volt a legkritikusabb (20%), a DeepSeek viszont az esetek 70 százalékában helyeselt.

Mindez nyilvánvalóvá teszi, hogy bár az emberek szeretik, ha egy MI megerősíti álláspontjukat, ez komoly veszélyeket rejt. A szervilis modelleket a felhasználók szívesebben fogadják el, megbízhatóbbnak tartják és inkább újra használják, így a piacon a legkíméletlenebbül helyeslő modellek tarolhatnak, függetlenül azok valódi érdemeitől vagy kockázataitól.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

kedd 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

MA 09:51

A hővel csábító növények titkai: élet a virágzás előtt

Általában elválaszthatatlan fogalmaknak tűnnek a virág és a beporzás, pedig évmilliókkal a virágok megjelenése előtt a növények már sikeresen vonzották az állatokat – csak nem színes szirmokkal, hanem forrósággal...

MA 09:43

Megérkezett az első otthoni depressziókezelő készülék

💡 Az amerikai Élelmiszer- és Gyógyszerügyi Hivatal (FDA) engedélyezte az első olyan eszközt, amely otthon is használható depresszió kezelésére...

MA 09:30

A római sírok új rejtélye: ujjlenyomatok az idő mélyéről

🗿 Közel 1800 évvel ezelőtt a mai Britannia területén élő rómaiak különös temetkezési szertartást alkalmaztak: folyékony gipszpasztát kentek az elhunyt testére, még mielőtt eltemették volna...

MA 09:23

Az OpenAI szabad kezet kapott a Disney-hősökkel

👑 A Disney három évre exkluzív licencet adott több mint 200 karakterére az OpenAI-nak, így mostantól a Sora videós MI és a ChatGPT Images hivatalosan is rajzolt és animált formában generálhat Disney-, Pixar-, Marvel- és Star Wars-karaktereket...

MA 09:16

Az új ChatGPT 5.2: végre itt az okosabb MI

Sokan már napi szinten használják a ChatGPT-t tanulásra és munkára, így fontos kérdés, hogy egy új verzió mennyit javít a megbízhatóságon és a mindennapi hasznosságon...

MA 09:08

A CentreStack súlyos kriptográfiai hibája nyit kaput az adatlopásnak

A hackerek új, eddig dokumentálatlan sérülékenységet használnak ki a Gladinet CentreStack és Triofox fájlmegosztó rendszereiben, amellyel távoli kódfuttatást érhetnek el...

MA 09:02

A 3D-s huzalozás küszöbén a 10 000 qubites MI-chipek

Fontos kérdés, hogyan lehet a kvantumszámítógépek számítási teljesítményét jelentősen növelni, miközben a fizikai méretük nem nő arányosan...

MA 08:57

Az összeomlás ára a kriptovilágban: 15 év börtön Do Kwon-nak

Do Kwon, a dél-koreai kriptovállalkozó 15 év börtönt kapott az Egyesült Államokban, miután két digitális valutája, a TerraUSD és a Luna 2022-ben összesen 14 ezer milliárd forint (kb...

MA 08:52

Az ausztrál tinik lázadnak: Túl kemény a közösségi média-tilalom?

👏 A közelgő ausztrál közösségi média-tilalom komoly hullámokat vetett, hiszen a kormány egyre komolyabb lépéseket tesz a fiatalok megóvása érdekében...

MA 08:43

A VS Code-ot rejtett trójaiakkal fertőző bővítmények terjednek

🐛 Egy ügyes kibertámadási kampány már február óta fertőzi a fejlesztőket, miután 19 rosszindulatú bővítmény jelent meg a VS Code Marketplace-en...

MA 08:37

A Runway áttörése: percekig tartó koherencia az MI-ben

🚀 A Runway bemutatta GWM-1 névre keresztelt, első világmodelljét, amely jelentős lépés a vállalat részéről, eddig ugyanis leginkább videógenerálásban jeleskedett...

MA 08:29

Az adatvédelmi rémálom: több mint 10 ezer Docker Hub-kép titkot szivárogtat

Több mint 10 000 Docker Hubon elérhető konténerképben találtak olyan érzékeny adatokat, amelyeknek sosem kellett volna nyilvánosságra kerülniük...

MA 08:23

A lenyűgöző anyag, amelyet szinte lehetetlen előállítani

💫 Ez a jelenség jól illusztrálható azzal, hogy Londonban, a Royal Brompton Kórházban korábban a tüdőszkennelés akár 45 percig is eltartott, ahol a pácienseknek mozdulatlanul, a fejük felett összekulcsolt kézzel kellett feküdniük...

MA 08:14

Az egész Föld összes háza végre 3D-ben látható

Tudósok elkészítették az első globális 3D-térképet az emberi lakóépületekről, amelynek neve World Settlement Footprint 3D...

MA 08:08

A Fortnite visszatért a Google Playre – az Apple még nem enged

Az Epic Games legendás battle royale-ját, a Fortnite-ot újra letölthetik az amerikai Android-felhasználók, miután bírósági döntés kötelezte a Google-t az alkalmazás visszaengedésére...

MA 08:02

Az Oracle nyakig eladósodik az MI‑őrületben

Az Oracle gyorsítja a kiadásait és bérleti szerződéseit, hogy lépést tartson az MI‑alapú felhőszolgáltatások iránti döbbenetes kereslettel...

MA 07:57

A mesterséges intelligencia már önállóan böngészik a Brave-ben

A Brave böngésző új, MI-alapú böngészési funkcióval kísérletezik, amely lehetővé teszi, hogy az adatvédelembarát Leo asszisztens automatikusan végezzen el különböző feladatokat...

MA 07:50

A Google új funkciójával a szelfidben próbálhatod fel a ruhákat

👗 Mostantól elég egy szelfi ahhoz, hogy az MI-vel működő Google-ruhapróbálót használd, nem kell felállni, és egész alakos képet készíteni...