
A delegált munka kulisszatitkai
Új trendként terjed a delegált munka, ahol a felhasználó egyszerűen átad egy feladatot az MI-nek – például könyvelési kimutatásokat kell átszerkeszteni, vagy kódot kell átírni. Az MI sok dolgot gyorsabban és (elvileg) hibátlanul intéz. Viszont a gyakorlat azt mutatja, hogy a felhasználó általában csak reméli, hogy a modell nem hibázik, nem töröl véletlenül semmit, és főként nem generál oda nem illő tartalmat, például hamis adatokat vagy hamis tartalmakat.
Ezzel foglalkozott egy Microsoft által fejlesztett teszt, amely a DELEGATE-52 nevet kapta. A vizsgálatban 52 szakmai területen, köztük a pénzügy, a programozás, a kristályszerkezetek és a kották szerkesztése során tesztelték az MI-ket. A teszt valós, 2 000–5 000 szavas dokumentumokkal dolgozott, amelyekhez 5–10 bonyolult szerkesztési feladatot rendeltek hozzá.
A DELEGATE-52 lényege, hogy elkerüli a költséges emberi utóellenőrzést: erre a „round-trip relay” módszert alkalmazza. A modell először végrehajtja az elvárt változtatást (például feloszt egy főkönyvet kategóriánként), majd egy új futtatás keretében, teljesen függetlenül, visszavonja a változtatást (azaz újra egyesíti a kategóriákat). Az értékelés titka, hogy vissza kellene jutni az eredeti dokumentumhoz: ha ez sikerül, az MI jól dolgozott – ha nem, valahol hiba csúszott be.
A tesztet úgy tervezték, hogy minden szerkesztési lépés könnyen visszafordítható legyen. A feladatokat egymás után, 20 lépésen át láncolták, közben pedig a feladathoz kapcsolódó, de valójában felesleges (8 000–12 000 szavas) figyelemelterelő dokumentumokat is beillesztettek, hogy kiderüljön: az MI képes-e elkerülni a hibás forrásokat.
Az MI-szerkesztés legnagyobb hibái
A kutatók összesen 19 különböző modellt vizsgáltak a legnagyobb fejlesztőktől, például az OpenAI-tól, a Google-től, a Mistraltól, az xAI-tól és a Moonshottól. Minden modellt 20 egymás utáni szerkesztési lépéssel teszteltek.
A tapasztalatok szerint a dokumentumok tartalmának 50%-a torzult vagy veszett el a teljes folyamat végére. Még a legjobbak – Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4 – is az esetek negyedében (átlagosan 25%-ban) hibáztak. A Python volt az egyetlen terület, ahol az MI-k folyamatosan 98% feletti hibátlanságot értek el – tehát az automatizált kódmódosításnál viszonylag megbízhatók. Viszont természetes nyelvi vagy speciális feladatoknál, például szépirodalmi szöveg, pénzügyi beszámoló vagy recept szerkesztésénél már könnyen elfáradnak.
A romlás nem apró hibák lassú halmozódásából állt: a torzulások közel 80%-át hirtelen, nagy hibák okozták. Ilyenkor egyetlen lépésben a dokumentum 10%-a vagy annál több veszett oda. A fejlett modellek kevésbé törlik, inkább átírják vagy épp „hallucinálnak”, azaz megtartják a szöveget, de észrevehetetlen hibákkal módosítják – ezt sokszor lehetetlen kiszúrni emberi átnézéssel.
Ekkor következett be a fordulat: a kutatók kipróbálták, hogy általános szerkesztőt vagy programfuttató eszközöket adnak az MI mellé, hogy jobban kezelje a fájlokat. Az eredmény meglepő volt: átlagosan 6%-kal nőtt a hibaarány. Kiderült, hogy a modellek nem tudnak minden területen univerzális programot írni, így gyakran kénytelenek az egész fájlt újraolvasni és újraírni – több hibalehetőség mellett.
Az információhalmozás ára
Minél nagyobb a szerkesztett dokumentum, vagy minél több a figyelemelterelő fájl, annál gyorsabban nő a hibák száma. A vállalati környezetben népszerű RAG (retrieval-augmented generation) rendszerek például különösen sérülékenyek: egy kissé pontatlan keresés eleinte csak 1% eltérést okoz, de 20–30 körös feldolgozás után ez már akár 8%-ra nőhet. Az egyszeri tesztelések alábecsülik a valós hibaarányokat, a rendszeresen visszatérő folyamatok során ugyanis összeadódnak ezek a torzulások.
Valóságteszt az MI-ügynökök világában
A DELEGATE-52 eredményei komoly figyelmeztetést jelentenek minden szervezet, fejlesztőcsapat vagy adatfeldolgozó cég számára, amely önálló MI-megoldásokat vezet be: a jelenlegi modellek csak egyszerű, rövid, jól körülírható feladatokkal birkóznak meg, hosszú, többkörös munka során elkerülhetetlen a hiba. Ezért szükséges, hogy ne csak a végén, hanem minden fontosabb lépés után emberek is átnézzék az eredményt.
Ebből kifolyólag a vállalati MI-bevezetések során három dolgot érdemes biztosítani: legyen egyedi, visszafordítható szerkesztési feladathalmaz; kell egy olyan elemző (parser), amely a dokumentumokat gépileg olvashatóvá alakítja; végül szükség van egy hasonlóságmérő eszközre, amely megmutatja, mennyire sikerült visszanyerni az eredeti szöveget. A legtöbb területen (52-ből 30 esetben) már meglévő feldolgozószoftverekkel is megoldható ez a feladat.
Biztató, hogy az MI-modellek valóban gyorsan fejlődnek: a GPT-sorozat például 18 hónap alatt eljutott a 20%-os megbízhatóságról majdnem 70%-ra. Viszont a vállalati adatok és munkafolyamatok sokfélesége miatt sosem lesz elég csak általános célú, dobozból kivett megoldásokat használni – mindig szükség lesz egyedi, szakterületre szabott eszközökre, hogy az MI valóban megbízható segítő legyen.
