Hát, az MI-ügynökök is legalább annyira bénázzák el a dolgokat, mint egy csoport chat Donald Trump vezetésével – Az MI-ügynökök 70%-ban elrontják az irodai feladatokat

Az MI-ügynökök forradalma egyelőre inkább tűnik tudományos fantasztikumnak, mint valóságnak. A nagy tanácsadócégek szerint a jelenlegi MI-ügynök projektek több mint 40%-a 2027 végéig elbukik a növekvő költségek, homályos üzleti haszon vagy elégtelen kockázatkezelés miatt. Bár ez azt jelenti, hogy közel 60% túléli, az MI-ügynökök valós hatékonysága azonban igencsak megkérdőjelezhető: több friss kutatás szerint az összetett, több lépésből álló feladatokat az ügynökök csupán 30–35%-ban végzik el sikeresen.

Mi a baj az MI-ügynökökkel?

Az MI-ügynököket olyan gépi tanulási modellek alkotják, amelyeket különféle szolgáltatásokkal és alkalmazásokkal kapcsolnak össze, hogy automatizálják az üzleti folyamatokat. Elvileg például képesek lennének arra, hogy megtalálják az összes olyan e-mailt a beérkező levelek mappában, amely túlzásokat állít az MI-ről, és megvizsgálják, hogy az adott feladók kapcsolódnak-e kriptocégekhez. Ha egy MI-ügynök képes olvasni a levelezőprogram adatmegjelenítő felületét, és maga is hozzáfér az üzenetekhez, elméletileg sokkal gyorsabban és hatékonyabban tudja elvégezni a feladatot, mint bármely humán dolgozó vagy egyszerű programozott szkript.

A tudományos fantasztikus irodalom már régóta álmodozik hibátlanul teljesítő szoftverügynökökről, de a valóság ennél sokkal kiábrándítóbb. A legtöbb manapság MI-ügynökként hirdetett szolgáltatás valójában csak hagyományos asszisztens vagy csevegőrobot, nem pedig valóban autonóm MI-ügynök.

Ásványrögöktől a laborig: tesztek az irodában

A Carnegie Mellon Egyetem (CMU) kutatói egy speciális benchmarkot, a TheAgentCompany-t fejlesztették ki, hogy reális körülmények között teszteljék az MI-ügynökök tudását. Ez egy szimulációs környezet, ahol egy képzeletbeli szoftvercég irodai feladatait modellezik: böngészés, kódírás, alkalmazáshasználat, kollégákkal való kommunikáció.

A kísérletek során két népszerű keretrendszerben több modellt is vizsgáltak, többek között a következőket:

Gemini-2.5-Pro (30,3%)
Claude-3.7-Sonnet (26,3%)
Claude-3.5-Sonnet (24%)
Gemini-2.0-Flash (11,4%)
GPT-4o (8,6%)
Llama-3.1-405b (7,4%)
Amazon-Nova-Pro-v1 (1,7%)

A legjobb eredmény is alig haladta meg a 30%-os sikerességi rátát. A részfeladatokat is beleszámítva a legsikeresebb modell is csak körülbelül 39%-os teljesítményt ért el.

Az ügynökök gyakran elbuknak egészen egyszerű instrukciók végrehajtásán is: például nem írnak a kollégának az utasítás szerint, nem kezelik a felugró ablakokat, sőt, néha még csalnak is – volt, aki átnevezett egy másik felhasználót, hogy helyettesítse azt, akit nem talált.

Kudarcok és csalódások sora

A kutatók szerint alapvető probléma, hogy az MI-ügynökök az egyszerűnek tűnő munkafolyamatok során is gyakran hibáznak. Különösen problematikus, ha irodai levelezéshez férnek hozzá, és adatvédelmi kockázatokat vállalnak, például elküldhetnek egy e-mailt rossz címzettnek. A legtöbb jelenlegi modellnek szinte nulla az adatbiztonsági tudatossága, ez óriási akadályt jelent majd a vállalati bevezetésük során.

A Salesforce kutatói is saját benchmarkot készítettek CRMArena-Pro néven, amelyben 19, szakértők által validált ügyfélkezelési és értékesítési feladatot értékeltek ki. A legsikeresebb modellek is mindössze 58%-os sikert értek el egyszerű (egylépéses) feladatoknál, míg az összetettebb, többkörös helyzetekben ez az arány 35%-ra esett vissza.

Túlindexelt hype, valódi üzleti haszon nélkül

A szakértők szerint a legtöbb MI-ügynök projekt jelenleg semmilyen jelentős megtérülést vagy valódi hozzáadott értéket nem termel, és a tényleges autonóm működés is nagyon kezdetleges. A Gartner becslése szerint jelenleg mindössze mintegy 130 valódi ügynök található a több ezer „ügynökös” kínálatban. Az előrelépés jellemzően csak egyszerű feladatoknál érzékelhető: workflow-végrehajtásban például a Gemini-2.5-Pro akár 83%-os sikerarányt is elér.

Ennek ellenére az optimisták azt várják, hogy 2028-ra a napi munkadöntések 15%-át már MI-ügynökök hozzák majd meg – szemben a tavalyi nulla százalékkal. Azt is előrevetítik, hogy három év múlva a vállalati szoftverek egyharmada már integrálni fog valós MI-ügynöki funkciókat.

Az MI-ügynökök látványos előretöréséről szóló hangzatos szalagcímek mögött tehát megdöbbentően gyenge teljesítmény, botladozó rendszerek és csalódott kutatók állnak. A valódi sci-fi irodai segítők egyelőre váratnak magukra, bár az út elején már elindult, krónikusan hibázó, döcögő rendszerük. A vállalatoknak marad az óvatosság, amíg az MI-ügynökök tényleg be nem bizonyítják, hogy a hype-on túl is tudnak valamit.

2025, adminboss, go.theregister.com alapján