2025. 07. 02., 15:01

Hát, az MI-ügynökök is legalább annyira bénázzák el a dolgokat, mint egy csoport chat Donald Trump vezetésével – Az MI-ügynökök 70%-ban elrontják az irodai feladatokat

Hát, az MI-ügynökök is legalább annyira bénázzák el a dolgokat, mint egy csoport chat Donald Trump vezetésével – Az MI-ügynökök 70%-ban elrontják az irodai feladatokat
Az MI-ügynökök forradalma egyelőre inkább tűnik tudományos fantasztikumnak, mint valóságnak. A nagy tanácsadócégek szerint a jelenlegi MI-ügynök projektek több mint 40%-a 2027 végéig elbukik a növekvő költségek, homályos üzleti haszon vagy elégtelen kockázatkezelés miatt. Bár ez azt jelenti, hogy közel 60% túléli, az MI-ügynökök valós hatékonysága azonban igencsak megkérdőjelezhető: több friss kutatás szerint az összetett, több lépésből álló feladatokat az ügynökök csupán 30–35%-ban végzik el sikeresen.

Mi a baj az MI-ügynökökkel?

Az MI-ügynököket olyan gépi tanulási modellek alkotják, amelyeket különféle szolgáltatásokkal és alkalmazásokkal kapcsolnak össze, hogy automatizálják az üzleti folyamatokat. Elvileg például képesek lennének arra, hogy megtalálják az összes olyan e-mailt a beérkező levelek mappában, amely túlzásokat állít az MI-ről, és megvizsgálják, hogy az adott feladók kapcsolódnak-e kriptocégekhez. Ha egy MI-ügynök képes olvasni a levelezőprogram adatmegjelenítő felületét, és maga is hozzáfér az üzenetekhez, elméletileg sokkal gyorsabban és hatékonyabban tudja elvégezni a feladatot, mint bármely humán dolgozó vagy egyszerű programozott szkript.

A tudományos fantasztikus irodalom már régóta álmodozik hibátlanul teljesítő szoftverügynökökről, de a valóság ennél sokkal kiábrándítóbb. A legtöbb manapság MI-ügynökként hirdetett szolgáltatás valójában csak hagyományos asszisztens vagy csevegőrobot, nem pedig valóban autonóm MI-ügynök.

Ásványrögöktől a laborig: tesztek az irodában

A Carnegie Mellon Egyetem (CMU) kutatói egy speciális benchmarkot, a TheAgentCompany-t fejlesztették ki, hogy reális körülmények között teszteljék az MI-ügynökök tudását. Ez egy szimulációs környezet, ahol egy képzeletbeli szoftvercég irodai feladatait modellezik: böngészés, kódírás, alkalmazáshasználat, kollégákkal való kommunikáció.

A kísérletek során két népszerű keretrendszerben több modellt is vizsgáltak, többek között a következőket:

Gemini-2.5-Pro (30,3%)
Claude-3.7-Sonnet (26,3%)
Claude-3.5-Sonnet (24%)
Gemini-2.0-Flash (11,4%)
GPT-4o (8,6%)
Llama-3.1-405b (7,4%)
Amazon-Nova-Pro-v1 (1,7%)

A legjobb eredmény is alig haladta meg a 30%-os sikerességi rátát. A részfeladatokat is beleszámítva a legsikeresebb modell is csak körülbelül 39%-os teljesítményt ért el.

Az ügynökök gyakran elbuknak egészen egyszerű instrukciók végrehajtásán is: például nem írnak a kollégának az utasítás szerint, nem kezelik a felugró ablakokat, sőt, néha még csalnak is – volt, aki átnevezett egy másik felhasználót, hogy helyettesítse azt, akit nem talált.

Kudarcok és csalódások sora

A kutatók szerint alapvető probléma, hogy az MI-ügynökök az egyszerűnek tűnő munkafolyamatok során is gyakran hibáznak. Különösen problematikus, ha irodai levelezéshez férnek hozzá, és adatvédelmi kockázatokat vállalnak, például elküldhetnek egy e-mailt rossz címzettnek. A legtöbb jelenlegi modellnek szinte nulla az adatbiztonsági tudatossága, ez óriási akadályt jelent majd a vállalati bevezetésük során.

A Salesforce kutatói is saját benchmarkot készítettek CRMArena-Pro néven, amelyben 19, szakértők által validált ügyfélkezelési és értékesítési feladatot értékeltek ki. A legsikeresebb modellek is mindössze 58%-os sikert értek el egyszerű (egylépéses) feladatoknál, míg az összetettebb, többkörös helyzetekben ez az arány 35%-ra esett vissza.


Túlindexelt hype, valódi üzleti haszon nélkül

A szakértők szerint a legtöbb MI-ügynök projekt jelenleg semmilyen jelentős megtérülést vagy valódi hozzáadott értéket nem termel, és a tényleges autonóm működés is nagyon kezdetleges. A Gartner becslése szerint jelenleg mindössze mintegy 130 valódi ügynök található a több ezer „ügynökös” kínálatban. Az előrelépés jellemzően csak egyszerű feladatoknál érzékelhető: workflow-végrehajtásban például a Gemini-2.5-Pro akár 83%-os sikerarányt is elér.

Ennek ellenére az optimisták azt várják, hogy 2028-ra a napi munkadöntések 15%-át már MI-ügynökök hozzák majd meg – szemben a tavalyi nulla százalékkal. Azt is előrevetítik, hogy három év múlva a vállalati szoftverek egyharmada már integrálni fog valós MI-ügynöki funkciókat.

Az MI-ügynökök látványos előretöréséről szóló hangzatos szalagcímek mögött tehát megdöbbentően gyenge teljesítmény, botladozó rendszerek és csalódott kutatók állnak. A valódi sci-fi irodai segítők egyelőre váratnak magukra, bár az út elején már elindult, krónikusan hibázó, döcögő rendszerük. A vállalatoknak marad az óvatosság, amíg az MI-ügynökök tényleg be nem bizonyítják, hogy a hype-on túl is tudnak valamit.

2025, adminboss, go.theregister.com alapján

  • Te szerinted elég etikus az, ha egy MI-ügynök belenéz az emberek levelezésébe?
  • Szerinted hagynád, hogy ilyen ügynökök döntsenek a napi munkádról?
  • Te mit tennél, ha a vállalatod bevezetne egy ilyen, sokat hibázó MI-ügynököt?


Legfrissebb posztok

MA 13:23

A természetes Ozempic: új csodafegyver az elhízás ellen

🥒 Fontos kérdés, hogy lehetséges-e mellékhatások nélkül fogyni a gyógyszeripar csodaszereinek hatékonyságával...

MA 13:12

A WeWork visszatér? Telefonfülkékkel támad a bukás után

💬 Fontos kérdés, hogy van-e visszaút a látványosan megbukott startupok számára, különösen, ha egykor a világ megváltását ígérték...

MA 13:02

Az ébredő fekete lyuk kitörése felrázta a kozmoszt

Egy óriási fekete lyuk újra felébredt, és kitörése most úgy ragyogja be az univerzumot, mintha egy kozmikus vulkán törne felszínre – mindezt közel egymillió fényévnyi kiterjedésben...

MA 12:47

Végre érthetők a párbeszédek: itt az új hangprojektor

🔊 Érdekes felvetés, hogy a tévéműsorok és filmek hangja gyakran érthetetlen, aminek oka részben a beépített tévéhangszórók gyenge minősége, részben pedig a hangsávok egyre összetettebb felépítése...

MA 12:34

Az OpenAI végre nagyban betör Londonba – Stargate nélkül

Fontos fejlemény, hogy az OpenAI jelentős lépést tett a brit fővárosban: megnyitja végleges londoni irodáját, amely több mint 500 munkatárs befogadására alkalmas – ez a jelenlegi létszám kétszerese...

MA 12:23

Az összeomlás után gyökeresen átszabják a StarkWare-t

⚡ A StarkWare alaposan átszervezi működését, miután a Starknet nevű hálózatukból származó bevételek több mint 99%-kal estek vissza a 2023 végi csúcsról...

MA 11:35

Az extrém aszály térdre kényszeríti Corpus Christit: vihart kérnek

A déli Texasban fekvő Corpus Christit a hosszú évek óta tartó szárazság kritikus helyzetbe sodorta...

MA 11:24

A kínai repterek új réme: kötelező powerbank-ellenőrzés

Kína nemcsak a kulturális különbségekről, hanem a technológiai szabályokról is híres...

MA 11:13

Az MI és a hit találkozása: egy chatbot útkeresése

A technológiai fejlődés eddig soha nem látott dilemmák elé állítja az emberiséget...

MA 10:57

A Surfshark új Dausos protokollja: villámgyors VPN, nagyobb biztonság

A megszokott VPN-élményt most egy újítás emeli magasabb szintre, amely akár 30%-kal gyorsabb sebességet, fejlettebb adatvédelmet és dedikált, privát szerveroldali alagutat kínál minden egyes felhasználónak...

MA 10:50

Az év kriptocsalása: milliárdnyi DOT-zápor, filléres zsákmány

Egy ügyes támadó vasárnap hajmeresztő, de végül szerencsétlen akciót vitt véghez az Ethereum hálózatán, ahol sikerült 1 milliárd Polkadot tokent (nagyjából 440 milliárd forint értékben) kibocsátania a Hyperbridge egyik hibás szerződésében...

MA 10:37

Az MI-háború új frontja: rohamra indulnak a nyílt modellek

🛡 A tavasz megérkezésével a Google, a Microsoft, az Alibaba és az Nvidia újabb hullámban jelentették meg az általuk fejlesztett nyílt súlyú MI-modelleket...

MA 10:29

Az elképesztő LEGO-rablás: csúfosan bedőlt a nagy terv

🧸 Milliós LEGO-lopás, menekülő, játékokkal teli dobozos teherautók, és persze mindenki azt hinné, hogy valami Guy Ritchie-film forog a Mojave-sivatagban...

MA 10:22

Az amerikai kormány le akarja leplezni egy Reddit-felhasználó kilétét

A bevándorlási és vámhatóság (ICE) hónapok óta próbálja felfedni egy Reddit-felhasználó kilétét, akit azzal vádolnak, hogy nyilvánosan bírálta az ügynökséget...

MA 10:15

Megakadt a Bitcoin szárnyalása – újabb akadály jött szembe

A Bitcoin árfolyama napok óta erősödött, ráadásul olyan tényezők is támogatták ezt, mint az ETF-beáramlás, a makrogazdasági hátszél vagy a Coinbase-en tapasztalt prémium...

MA 10:01

Az olcsó QHD-s hordozható monitor, amiért nem kár a pénz?

A hordozható monitorok piacán hatalmas a választék, mégis ritkán találni olyat, ami kompromisszummentes élményt ad alacsony áron...

MA 09:50

A Rómából hazatért fáraó: Luxor új csodája

Lényeges, hogy Luxorban, a Karnak templomkomplexumnál dolgozó régészek egy 2000 éves homokkő sztélét tártak fel, amelyen a római császár, Tiberius fáraóként jelenik meg...

MA 09:23

Az MI végleg beköltözött a fejlesztők gépeire – Mitől lesz vak a cég?

💻 Az elmúlt másfél évben a vállalati MI-biztonság legfontosabb szabálykönyve egyszerű volt: elég volt a böngészőt kontrollálni...

MA 09:15

A csúcskategóriás Androidok idén vörösben hódítanak – az Apple nyomán

Az okostelefon-gyártók évről évre próbálják feldobni csúcskészülékeik megjelenését, és úgy tűnik, idén egy vadonatúj szín hódíthatja meg a piacot...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/13

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     VSep (iPhone/iPad)A VSep egy mesterséges intelligencia alapú alkalmazás, amely képes a zeneszámokból elkülöníteni az éneksávokat...

MA 09:07

Az Escher-féle örök spirál: így készítsd el otthon a Droste-effektust

M. C. Escher képeiben minden benne van, amitől a matematika hirtelen menőnek tűnik: az örökké visszatérő, önmagát ismétlő mintázatok, amelyek egyre kisebb és kisebb méretben folytatódnak a rajzon belül, mintha egy vizuális örökkévalóság lenne...

MA 09:01

Az MI már Lennon nyomába ered – Soderbergh is beszáll

🎵 Egy lényeges szempont, hogy Steven Soderbergh, aki olyan kasszasikereket rendezett, mint a Forgalom (Traffic), a Tripla vagy semmi (Ocean’s Eleven) vagy a Magic Mike (Magic Mike), ezúttal John Lennon utolsó interjújáról készít dokumentumfilmet...

MA 08:57

A neandervölgyiek sötét lakomái: ősi kannibalizmus és kívülállók

🤤 Egy új belga kutatás a Goyet-barlangból származó neandervölgyi maradványok alapján megállapította, hogy körülbelül 41 000–45 000 évvel ezelőtt ezek az ősemberek szelektív kannibalizmust folytattak...

MA 08:52

Az MI-verseny vesztese lehet az igazi nyertes: az Apple titkos aduja

Megvizsgálandó, miként fordult meg az MI-verseny szele az Apple javára, miközben a nagy tech cégek dollármilliárdokat öntöttek szuperszámítógépekbe, tréningadatokba és szoftverfejlesztésbe...

MA 08:42

Az ARM-os Windows felforgatja a PC-piacot – Snapdragon X élményteszt

Minden jel szerint a Snapdragon X processzorok tényleg megérkeztek, és már a Windows 11 is fut az ezekből készült laptopokon...

MA 08:37

Az ősemberek elefántokat daraboltak, hogy nagyobbra nőjön az agyuk

🦖 Képzelj el egy lényt, amely majdnem kétszer akkora, mint a mai afrikai elefánt, tehát akár 5 900 kilogrammot is nyomhatott...

MA 08:29

Az iskola titkos fegyvere: robotmadarak a Grand Teton Nemzeti Parkban

A Grand Teton Nemzeti Parkban most robotmadarakat hívnak segítségül, hogy visszacsalogassák az egyre fogyatkozó zsályafajdakat...

MA 08:22

Az Amazon nyugdíjazza a régi Kindléket – kitört a felháborodás

Nem csoda, hogy rég nem látott felháborodás söpört végig a Kindle-táboron, miután az Amazon bejelentette: hamarosan véget ér a legöregebb e-olvasók támogatása...

MA 08:14

Az AI-fenevad Mythos felforgatja az infosec világát – vagy blöff?

🦁 A héten az Anthropic előállt a Mythos nevű mesterséges intelligenciájával, amely állítólag döbbenetes pontossággal találja meg és használja ki a nulladik napi sérülékenységeket...