2026. 05. 14., 08:37

A legfejlettebb MI nemcsak töröl, át is ír – és észrevétlenül hibázik

Ahogy a nagy nyelvi modellek egyre okosabbá válnak, egyre többen bízzák rájuk tudásalapú feladatok elvégzését: a gép átnézi, rendszerezi, szerkeszti a dokumentumokat, majd leteszi elénk a kész eredményt. De mennyire bízhatunk ebben, főleg ha a modell több körön keresztül módosít egy-egy szöveget?

A delegált munka kulisszatitkai

Új trendként terjed a delegált munka, ahol a felhasználó egyszerűen átad egy feladatot az MI-nek – például könyvelési kimutatásokat kell átszerkeszteni, vagy kódot kell átírni. Az MI sok dolgot gyorsabban és (elvileg) hibátlanul intéz. Viszont a gyakorlat azt mutatja, hogy a felhasználó általában csak reméli, hogy a modell nem hibázik, nem töröl véletlenül semmit, és főként nem generál oda nem illő tartalmat, például hamis adatokat vagy hamis tartalmakat.

Ezzel foglalkozott egy Microsoft által fejlesztett teszt, amely a DELEGATE-52 nevet kapta. A vizsgálatban 52 szakmai területen, köztük a pénzügy, a programozás, a kristályszerkezetek és a kották szerkesztése során tesztelték az MI-ket. A teszt valós, 2 000–5 000 szavas dokumentumokkal dolgozott, amelyekhez 5–10 bonyolult szerkesztési feladatot rendeltek hozzá.

A DELEGATE-52 lényege, hogy elkerüli a költséges emberi utóellenőrzést: erre a „round-trip relay” módszert alkalmazza. A modell először végrehajtja az elvárt változtatást (például feloszt egy főkönyvet kategóriánként), majd egy új futtatás keretében, teljesen függetlenül, visszavonja a változtatást (azaz újra egyesíti a kategóriákat). Az értékelés titka, hogy vissza kellene jutni az eredeti dokumentumhoz: ha ez sikerül, az MI jól dolgozott – ha nem, valahol hiba csúszott be.

A tesztet úgy tervezték, hogy minden szerkesztési lépés könnyen visszafordítható legyen. A feladatokat egymás után, 20 lépésen át láncolták, közben pedig a feladathoz kapcsolódó, de valójában felesleges (8 000–12 000 szavas) figyelemelterelő dokumentumokat is beillesztettek, hogy kiderüljön: az MI képes-e elkerülni a hibás forrásokat.

Az MI-szerkesztés legnagyobb hibái

A kutatók összesen 19 különböző modellt vizsgáltak a legnagyobb fejlesztőktől, például az OpenAI-tól, a Google-től, a Mistraltól, az xAI-tól és a Moonshottól. Minden modellt 20 egymás utáni szerkesztési lépéssel teszteltek.

A tapasztalatok szerint a dokumentumok tartalmának 50%-a torzult vagy veszett el a teljes folyamat végére. Még a legjobbak – Gemini 3.1 Pro, Claude 4.6 Opus, GPT 5.4 – is az esetek negyedében (átlagosan 25%-ban) hibáztak. A Python volt az egyetlen terület, ahol az MI-k folyamatosan 98% feletti hibátlanságot értek el – tehát az automatizált kódmódosításnál viszonylag megbízhatók. Viszont természetes nyelvi vagy speciális feladatoknál, például szépirodalmi szöveg, pénzügyi beszámoló vagy recept szerkesztésénél már könnyen elfáradnak.

A romlás nem apró hibák lassú halmozódásából állt: a torzulások közel 80%-át hirtelen, nagy hibák okozták. Ilyenkor egyetlen lépésben a dokumentum 10%-a vagy annál több veszett oda. A fejlett modellek kevésbé törlik, inkább átírják vagy épp „hallucinálnak”, azaz megtartják a szöveget, de észrevehetetlen hibákkal módosítják – ezt sokszor lehetetlen kiszúrni emberi átnézéssel.

Ekkor következett be a fordulat: a kutatók kipróbálták, hogy általános szerkesztőt vagy programfuttató eszközöket adnak az MI mellé, hogy jobban kezelje a fájlokat. Az eredmény meglepő volt: átlagosan 6%-kal nőtt a hibaarány. Kiderült, hogy a modellek nem tudnak minden területen univerzális programot írni, így gyakran kénytelenek az egész fájlt újraolvasni és újraírni – több hibalehetőség mellett.

Az információhalmozás ára

Minél nagyobb a szerkesztett dokumentum, vagy minél több a figyelemelterelő fájl, annál gyorsabban nő a hibák száma. A vállalati környezetben népszerű RAG (retrieval-augmented generation) rendszerek például különösen sérülékenyek: egy kissé pontatlan keresés eleinte csak 1% eltérést okoz, de 20–30 körös feldolgozás után ez már akár 8%-ra nőhet. Az egyszeri tesztelések alábecsülik a valós hibaarányokat, a rendszeresen visszatérő folyamatok során ugyanis összeadódnak ezek a torzulások.

Valóságteszt az MI-ügynökök világában

A DELEGATE-52 eredményei komoly figyelmeztetést jelentenek minden szervezet, fejlesztőcsapat vagy adatfeldolgozó cég számára, amely önálló MI-megoldásokat vezet be: a jelenlegi modellek csak egyszerű, rövid, jól körülírható feladatokkal birkóznak meg, hosszú, többkörös munka során elkerülhetetlen a hiba. Ezért szükséges, hogy ne csak a végén, hanem minden fontosabb lépés után emberek is átnézzék az eredményt.

Ebből kifolyólag a vállalati MI-bevezetések során három dolgot érdemes biztosítani: legyen egyedi, visszafordítható szerkesztési feladathalmaz; kell egy olyan elemző (parser), amely a dokumentumokat gépileg olvashatóvá alakítja; végül szükség van egy hasonlóságmérő eszközre, amely megmutatja, mennyire sikerült visszanyerni az eredeti szöveget. A legtöbb területen (52-ből 30 esetben) már meglévő feldolgozószoftverekkel is megoldható ez a feladat.

Biztató, hogy az MI-modellek valóban gyorsan fejlődnek: a GPT-sorozat például 18 hónap alatt eljutott a 20%-os megbízhatóságról majdnem 70%-ra. Viszont a vállalati adatok és munkafolyamatok sokfélesége miatt sosem lesz elég csak általános célú, dobozból kivett megoldásokat használni – mindig szükség lesz egyedi, szakterületre szabott eszközökre, hogy az MI valóban megbízható segítő legyen.

2026, adminboss, venturebeat.com alapján

Legfrissebb posztok

A Microsoft kibocsátása 25%-kal nőtt – a neheze még hátravan

Tudomány

MA 09:49

A Microsoft kibocsátása 25%-kal nőtt – a neheze még hátravan

💨 A Microsoft károsanyag-kibocsátása tavaly 25%-kal nőtt, ami főleg az adatközpontok gyors terjeszkedésének köszönhető...

Az adataid a telefonodon maradnak: a Google új AI-dobása a Pixelen

MI Hírek

MA 09:37

Az adataid a telefonodon maradnak: a Google új AI-dobása a Pixelen

📱 A Google ismét újat mutat a Pixel okostelefonok világában – mostantól az eszközökön futó mesterséges intelligencia még erősebbé teszi a mobilokat, úgy, hogy közben védi a felhasználók adatait...

APP

MA 09:11

APPok, Amik Ingyenesek MA, 7/15

Fizetős iOS appok és játékok, amik ingyenesek a mai napon. Between Dates Calendar Math (iPhone/iPad)A Between Days alkalmazás egyszerű és gyors megoldást kínál két dátum közötti napok kiszámítására...

Az északkeleti levegő veszélyes: minnesotai erdőtüzek szennyezik

Színes

MA 09:01

Az északkeleti levegő veszélyes: minnesotai erdőtüzek szennyezik

Az Észak-Minnesotában pusztító erdőtüzek füstje hamarosan elérheti az Egyesült Államok északkeleti nagyvárosait, többek között Detroitot, Milwaukee-t, Clevelandet, Philadelphiát és New Yorkot...

Az első szintetikus sejt: tényleg megszületett a mesterséges élet?

Tudomány

MA 08:49

Az első szintetikus sejt: tényleg megszületett a mesterséges élet?

A Minnesotai Egyetem laboratóriumában újszerű biológiai eredmény született: egy aprócska SpudCell nevű képződmény képes táplálkozni, növekedni, versengeni, osztódni és lemásolni önmagát – vagyis szinte mindent tud, amit egy élő sejt is...

MI Hírek

MA 08:36

Az új Google Képek Pinterest-szerű, felfedezésre kihegyezett átalakítást kapott

A Google Képek (Google Images) megújult külsőt kapott: mostantól személyre szabott galériákat kínál a felhasználóknak, így még könnyebben fedezhetik fel az őket érdeklő képeket...

MI Hírek

MA 08:12

A Google DeepMind az USA-t tenné az MI-szabványok élére

A Google DeepMind vezére, Demis Hassabis szerint az új generációs mesterséges intelligencia egyre komolyabb veszélyeket rejt magában, például a kiberbiztonság és a biológiai fenyegetések terén...

Az új Alzheimer-gyógyszer felforgatja a megszokott kezeléseket

Tudomány

MA 08:01

Az új Alzheimer-gyógyszer felforgatja a megszokott kezeléseket

💊 Fontos kérdés, hogy meg lehet-e állítani vagy lassítani az Alzheimer-kór lefolyását, hiszen a demencia legfőbb oka, az Alzheimer-kór, világszerte rengeteg embert érint...

Tudomány

MA 07:49

Az űrben tovább tart az amerikai–orosz űrhajósok összefogása

🚀 Sikeresen megérkezett kedden a Nemzetközi Űrállomásra egy amerikai–orosz személyzet, miután a kazahsztáni Bajkonurból indultak a Roszkoszmosz által üzemeltetett Szojuz MS-29 fedélzetén...

Tudomány

MA 07:37

A Microsoft Secure Bootja tíz éve lyukas, észre sem vették

🔒 Az informatika egyik legfontosabb biztonsági eleme, a Secure Boot, már csaknem tíz éve lényegében védtelenné vált – és ezt eddig senki sem vette észre...

Tudomány

MA 07:24

A csípős paprika növelheti egy halálos rák kockázatát?

Bár a csípős paprika számos kultúra elválaszthatatlan része, és egyes laboratóriumi kísérletek a bennük található vegyületeket, például a kapszaicint gyulladáscsökkentőnek vagy akár daganatellenesnek mutatják, az utóbbi évek humán kutatásai nem ennyire egyértelműek...

Az Artemis II: „Furcsán nézett ki a Hold” 250 ezer mérföldről

Tudomány

MA 07:02

Az Artemis II: „Furcsán nézett ki a Hold” 250 ezer mérföldről

Április 6-án négy űrhajós indult el az Artemis II misszió keretében az Orion űrhajóval, és körülbelül 40 percig teljesen eltűntek a Föld látóteréből...

Színes

MA 06:38

A Microsoft rekordméretű javításözöne: 570 hiba és 3 zero-day

🔧 Szinte példátlanul nagy frissítési csomagot adott ki a Microsoft a 2026...

MI Hírek

MA 06:25

A volt dolgozók részrehajló MI-t sejtenek a leépítések mögött – perelik a Metát

💼 Májusban a Meta megvált dolgozóinak 10 százalékától, közel 8 000 alkalmazottat küldött el, ami jelentős átszervezéssel járt a vállalat MI-re és adatközpontokra irányuló fejlesztései miatt...

HistoryToday

MA 06:05

Történelmi események a mai napon (Július 15.)

Időutazás egyetlen napon: Jeruzsálem falainak áttörésétől 🏰 a Rosetta-kő 🗿 megtalálásán és Napoleon 🚢 megadásán át a Grunwaldnál vívott döntő ütközetig ⚔️, sőt a modern korszakban a törökországi puccskísérletig 🇹🇷 és a Mozilla alapításáig 🦊...

Tudomány

kedd 18:31

Az Ozempic és a Wegovy tényleg lassíthatják a biológiai öregedést?

Tipikus eset, amikor egy ismert gyógyszer egészen váratlan előnyöket kínál. A GLP-1 típusú szerek, mint az Ozempic, a Wegovy vagy a Rybelsus, eredetileg a fogyás, a jobb vércukorszint-szabályozás és a szívbetegségek kockázatának csökkentése miatt váltak népszerűvé...

Tudomány

kedd 17:30

Az indiai tudósok megalkották az emberi agytörzs eddigi legrészletesebb 3D-atlaszát

Indiai kutatók a világ eddigi legrészletesebb, háromdimenziós agytörzs-atlaszát hozták létre, amelyben MRI-felvételeket több mint 500 mikroszkópos szövetrészlettel kapcsoltak össze...

Tudomány

kedd 17:01

A Tejútrendszer mélyén cukrot találtak a kutatók

Többek között különleges eredményre jutottak a kutatók: a Tejútrendszer középpontjához közel egy óriási gázfelhőben felfedeztek egy ritka cukorfélét, az eritrózt, amely nemcsak málnában, hanem barnító krémekben is megtalálható...

Az IBM 23%-ot zuhant a második negyedéves profitfigyelmeztetés után

Kriptó

kedd 16:01

Az IBM 23%-ot zuhant a második negyedéves profitfigyelmeztetés után

Ami kezdetben ártalmatlannak tűnt, végül az IBM történetének egyik legsötétebb napjához vezetett a tőzsdén...

A NASA Perseverance-je célba ért: megvan a marsi maraton

Tudomány

kedd 15:01

A NASA Perseverance-je célba ért: megvan a marsi maraton

🚀 Történelmi teljesítmény született a Marson: a Perseverance marsjáró öt év és négy hónap után elérte a 42,195 kilométeres maratoni távot...

Színes

kedd 12:01

A régi T‑Mobile-csomagoknak vége: kényszerváltás már ezen a héten

Ami kezdetben ártalmatlannak tűnt, most minden régi T-Mobile-előfizető számára valódi változás: a társaság e héttől kezdve automatikusan átsorolja a 10–15 éves tarifákat – például a Simple Choice, T-Mobile One, One Plus, a Magenta családhoz tartozó, valamint a Sprintből áthozott régi csomagokat – modernebb tarifákra...

Az inflációs adat előtt megroggyan a Bitcoin

Kriptó

kedd 11:31

Az inflációs adat előtt megroggyan a Bitcoin

A legnagyobb kriptovaluták teljesítménye az elmúlt 24 órában jelentősen visszaesett, miután egyre többen valószínűsítik, hogy az amerikai jegybank akár már júliusban kamatemelés mellett dönt...

Színes

kedd 11:02

Az analóg fotózás visszatér: a fiatalok újra tekercsre lőnek

Az elmúlt pár évben váratlan fordulat történt a fotózás világában: a fiatal generáció újra felfedezte a filmes fényképezőgépeket...

MI Hírek

kedd 10:49

A Turing-mítosz vége: lehet, hogy tévedett a mesterséges intelligenciáról?

🤔 A mesterséges intelligencia kutatása 75 éve követi Alan Turing útmutatását, aki két alapvető feltételezést tett: az intelligencia létrehozható szoftverből, függetlenül a testtől, és hogy egy gép intelligensnek számít, ha sikerrel utánozni tudja az embert, például egy beszélgetés során...

Az MI átírja a marketinget: a régi szabályoknak befellegzett

MI Hírek

kedd 10:37

Az MI átírja a marketinget: a régi szabályoknak befellegzett

💡 A Fortune 500 cégek vezető marketingesei kénytelenek szembenézni azzal a ténnyel, hogy a korábbi, jól bevált módszerek egyszerűen elavultak...

A júliusi Google-frissítés felturbózza a Play Áruházat, Wear OS-t és a Térképet

Színes

kedd 10:25

A júliusi Google-frissítés felturbózza a Play Áruházat, Wear OS-t és a Térképet

🚀 A legújabb Google System-frissítés idén nyáron ismét ráncfelvarrást hoz az Android-felhasználóknak...

Végre itt a hideg vízzel elkészíthető Cup Noodles!

Színes

kedd 10:01

Végre itt a hideg vízzel elkészíthető Cup Noodles!

🍹 Lényeges szempont, hogy az instant tészták villámgyors megoldást kínálnak, legyen szó egyetemista vacsoráról vagy gyors munkahelyi ebédről...

A Pixel frissítése végre kézre álló csengőhang-, ébresztő- és értesítéskezelést ad

Színes

kedd 09:48

A Pixel frissítése végre kézre álló csengőhang-, ébresztő- és értesítéskezelést ad

A Google a Pixel telefonokon jelentősen megkönnyíti a csengőhangok, az ébresztők és az értesítések hangerejének szabályozását...

A legnagyobb japán taxitársaság leállította rendszereit kibertámadás után

Színes

kedd 09:37

A legnagyobb japán taxitársaság leállította rendszereit kibertámadás után

Felmerül a kérdés, hogy mi történik egy nagyvállalattal, ha leáll a teljes informatikai rendszere?..