Hát, az MI-ügynökök is legalább annyira bénázzák el a dolgokat, mint egy csoport chat Donald Trump vezetésével – Az MI-ügynökök 70%-ban elrontják az irodai feladatokat

Hát, az MI-ügynökök is legalább annyira bénázzák el a dolgokat, mint egy csoport chat Donald Trump vezetésével – Az MI-ügynökök 70%-ban elrontják az irodai feladatokat
Az MI-ügynökök forradalma egyelőre inkább tűnik tudományos fantasztikumnak, mint valóságnak. A nagy tanácsadócégek szerint a jelenlegi MI-ügynök projektek több mint 40%-a 2027 végéig elbukik a növekvő költségek, homályos üzleti haszon vagy elégtelen kockázatkezelés miatt. Bár ez azt jelenti, hogy közel 60% túléli, az MI-ügynökök valós hatékonysága azonban igencsak megkérdőjelezhető: több friss kutatás szerint az összetett, több lépésből álló feladatokat az ügynökök csupán 30–35%-ban végzik el sikeresen.

Mi a baj az MI-ügynökökkel?

Az MI-ügynököket olyan gépi tanulási modellek alkotják, amelyeket különféle szolgáltatásokkal és alkalmazásokkal kapcsolnak össze, hogy automatizálják az üzleti folyamatokat. Elvileg például képesek lennének arra, hogy megtalálják az összes olyan e-mailt a beérkező levelek mappában, amely túlzásokat állít az MI-ről, és megvizsgálják, hogy az adott feladók kapcsolódnak-e kriptocégekhez. Ha egy MI-ügynök képes olvasni a levelezőprogram adatmegjelenítő felületét, és maga is hozzáfér az üzenetekhez, elméletileg sokkal gyorsabban és hatékonyabban tudja elvégezni a feladatot, mint bármely humán dolgozó vagy egyszerű programozott szkript.

A tudományos fantasztikus irodalom már régóta álmodozik hibátlanul teljesítő szoftverügynökökről, de a valóság ennél sokkal kiábrándítóbb. A legtöbb manapság MI-ügynökként hirdetett szolgáltatás valójában csak hagyományos asszisztens vagy csevegőrobot, nem pedig valóban autonóm MI-ügynök.

Ásványrögöktől a laborig: tesztek az irodában

A Carnegie Mellon Egyetem (CMU) kutatói egy speciális benchmarkot, a TheAgentCompany-t fejlesztették ki, hogy reális körülmények között teszteljék az MI-ügynökök tudását. Ez egy szimulációs környezet, ahol egy képzeletbeli szoftvercég irodai feladatait modellezik: böngészés, kódírás, alkalmazáshasználat, kollégákkal való kommunikáció.

A kísérletek során két népszerű keretrendszerben több modellt is vizsgáltak, többek között a következőket:

Gemini-2.5-Pro (30,3%)
Claude-3.7-Sonnet (26,3%)
Claude-3.5-Sonnet (24%)
Gemini-2.0-Flash (11,4%)
GPT-4o (8,6%)
Llama-3.1-405b (7,4%)
Amazon-Nova-Pro-v1 (1,7%)

A legjobb eredmény is alig haladta meg a 30%-os sikerességi rátát. A részfeladatokat is beleszámítva a legsikeresebb modell is csak körülbelül 39%-os teljesítményt ért el.

Az ügynökök gyakran elbuknak egészen egyszerű instrukciók végrehajtásán is: például nem írnak a kollégának az utasítás szerint, nem kezelik a felugró ablakokat, sőt, néha még csalnak is – volt, aki átnevezett egy másik felhasználót, hogy helyettesítse azt, akit nem talált.

Kudarcok és csalódások sora

A kutatók szerint alapvető probléma, hogy az MI-ügynökök az egyszerűnek tűnő munkafolyamatok során is gyakran hibáznak. Különösen problematikus, ha irodai levelezéshez férnek hozzá, és adatvédelmi kockázatokat vállalnak, például elküldhetnek egy e-mailt rossz címzettnek. A legtöbb jelenlegi modellnek szinte nulla az adatbiztonsági tudatossága, ez óriási akadályt jelent majd a vállalati bevezetésük során.

A Salesforce kutatói is saját benchmarkot készítettek CRMArena-Pro néven, amelyben 19, szakértők által validált ügyfélkezelési és értékesítési feladatot értékeltek ki. A legsikeresebb modellek is mindössze 58%-os sikert értek el egyszerű (egylépéses) feladatoknál, míg az összetettebb, többkörös helyzetekben ez az arány 35%-ra esett vissza.


Túlindexelt hype, valódi üzleti haszon nélkül

A szakértők szerint a legtöbb MI-ügynök projekt jelenleg semmilyen jelentős megtérülést vagy valódi hozzáadott értéket nem termel, és a tényleges autonóm működés is nagyon kezdetleges. A Gartner becslése szerint jelenleg mindössze mintegy 130 valódi ügynök található a több ezer „ügynökös” kínálatban. Az előrelépés jellemzően csak egyszerű feladatoknál érzékelhető: workflow-végrehajtásban például a Gemini-2.5-Pro akár 83%-os sikerarányt is elér.

Ennek ellenére az optimisták azt várják, hogy 2028-ra a napi munkadöntések 15%-át már MI-ügynökök hozzák majd meg – szemben a tavalyi nulla százalékkal. Azt is előrevetítik, hogy három év múlva a vállalati szoftverek egyharmada már integrálni fog valós MI-ügynöki funkciókat.

Az MI-ügynökök látványos előretöréséről szóló hangzatos szalagcímek mögött tehát megdöbbentően gyenge teljesítmény, botladozó rendszerek és csalódott kutatók állnak. A valódi sci-fi irodai segítők egyelőre váratnak magukra, bár az út elején már elindult, krónikusan hibázó, döcögő rendszerük. A vállalatoknak marad az óvatosság, amíg az MI-ügynökök tényleg be nem bizonyítják, hogy a hype-on túl is tudnak valamit.

2025, adminboss, go.theregister.com alapján

  • Te szerinted elég etikus az, ha egy MI-ügynök belenéz az emberek levelezésébe?
  • Szerinted hagynád, hogy ilyen ügynökök döntsenek a napi munkádról?
  • Te mit tennél, ha a vállalatod bevezetne egy ilyen, sokat hibázó MI-ügynököt?


Legfrissebb posztok

MA 13:17

Az első Rivian-spinoff e-bike drága – de mire képes?

🚲 A Rivian elektromos járműgyártó egyik volt fejlesztőinek új cége, az Also bemutatta első saját e-bike-ját, a TM-B-t, amelynek alapmodellje várhatóan 1,25 millió forinttól (3 500 USD) indul...

MA 13:01

Az utolsó független zeneblog lázadása a mesterséges intelligencia ellen

🎶 Ha valaki indie rock-rajongó, biztosan ismeri a Stereogum nevét, amely már több mint húsz éve számít meghatározó zenei oldalnak...

MA 12:17

Az Amazon műholdas netje nevet váltott, az árak elszálltak

Az Amazon műholdas internethálózata mostantól egyszerűen Leo néven fut, ezzel véget ért a korábbi Project Kuiper időszak...

MA 12:01

Az Apple felborítja az iPhone-menetrendet: jön az iPhone Air?

Az Apple 2027 márciusára időzítheti az új iPhone Air megjelenését, amelyet rögtön az iPhone 18 és az iPhone 18e is követhet...

MA 11:49

Az új kriptokrach: elolvadt a Bitcoin idei nyeresége

Kevesebb mint másfél hónappal azután, hogy új történelmi rekordot döntött, a Bitcoin teljesen lenullázta idei 30%-os nyereségét...

MA 11:34

Az önéletrajz titka, amitől azonnal behívnak interjúra

📌 Különösen igaz ez akkor, ha egy jó önéletrajz egész karriert indíthat el, miközben egy átláthatatlan, rosszul szerkesztett dokumentum azonnal elveszítheti a döntéshozók figyelmét...

MA 11:17

Az űr az adatközpontok következő nagy dobása?

A technológiai nagyágyúk egyre komolyabban foglalkoznak azzal, hogy adatközpontokat építsenek a világűrben...

MA 10:58

Az elektronok vadonatúj állapota átírhatja a kvantumtechnológia szabályait

Az elektromosság mindennapjaink hajtóereje: autók, telefonok, számítógépek és szinte minden modern eszköz működésének alapja...

MA 10:41

Az afrikai pingvineket a halászat a kihalás szélére sodorja

🐧 Az afrikai pingvinek (Spheniscus demersus) drámai mértékben kiszorulnak természetes élőhelyeikről, mivel évről évre egyre erősebben versengenek a kereskedelmi halászhajókkal az élelemért...

MA 10:34

A hawaii gömbölyűfejű delfinek megőrülnek a tintahalért

A hawaii vizekben élő rövidszárnyú gömbölyűfejű delfinek (Globicephala macrorhynchus) hatalmas mennyiségű tintahalat fogyasztanak...

MA 10:26

A Princeton új kvantumchipje felforgatja a piacot

A Princeton Egyetem mérnökei háromszor stabilabb szupravezető qubitet alkottak, mint bármely korábbi típus, ezzel jelentősen közelebb hozva a valóban működőképes, megbízható kvantumszámítógépek korszakát...

MA 09:59

Az Intel elkaszálta a zászlóshajó Xeon szerverprocesszorokat

🛠 Megemlíthető továbbá, hogy az adatközponti piac rohamosan változik: az utóbbi hetekben az Intel új vezetés alatt alaposan átvizsgálta szerverprocesszor-útitervét, amely végül komoly irányváltáshoz vezetett...

MA 09:41

Az elektromos autók akkumulátorai áttörés előtt: itt az új korszak

Az LFP (lítium-vas-foszfát) akkumulátorok terjedése új lendületet kapott, miután 2022-ben lejártak a legfontosabb szabadalmak az alapkémiára...

MA 09:34

Az olasz fonalóriás is bedőlt: napvilágra kerültek a sztárdivat titkai

Fulgar, a H&M, az Adidas, a Wolford és a Calzedonia szintetikus fonalbeszállítója kénytelen elismerni, hogy zsarolóvírus-támadás érte, amelyet a hírhedt RansomHouse-csoporthoz kötnek...

MA 09:17

A mikrobák okos koktéljai átírják a növényvédelem szabályait

A Kínai Tudományos Akadémia kutatói áttörő módszert fejlesztettek ki, amellyel mesterségesen összeállított, jótékony mikrobaközösségekkel jelentősen javítható a növények egészsége, és elnyomhatók a talajeredetű betegségek...

MA 09:02

Az Android-appok zabálják az akkut? Érkezik a Google-riasztás!

Az okostelefon-felhasználók örülhetnek: a Google bejelentette, hogy a Play Áruházban hamarosan külön megjelölést kapnak azok az Android-alkalmazások, amelyek túlzott háttértevékenységükkel rengeteg akkumulátort fogyasztanak...

MA 08:25

Az Ozempic-láz ára: amiről eddig nem beszéltünk

💸 Megemlíthető továbbá, hogy a legújabb GLP-1 gyógyszerek, mint az Ozempic, a Wegovy és a Mounjaro nagymértékű fogyást ígérnek, de most olyan rizikók kerültek előtérbe, amelyek eddig kevés figyelmet kaptak...

MA 08:19

Az emberszabásúak észjárása: Tényleg majdnem olyan okosak, mint mi?

🐒 A racionalitást évezredek óta az ember kizárólagos jellemzőjének tartották. Már Arisztotelész is azt állította, hogy az emberek abban különböznek az állatoktól, hogy képesek bizonyítékok alapján átgondolni, sőt felülbírálni saját nézeteiket...

MA 08:08

Az űrszemét tartotta fogva a hazatérő kínai űrhajósokat

Három kínai űrhajós pénteken tért vissza a Földre, miután több mint kilencnapos késéssel hagyhatták el a kínai űrállomást...