MA 07:43

Az Alibaba új MI-ügynöke száműzi a felesleges eszközhasználatot

Az Alibaba új MI-ügynöke száműzi a felesleges eszközhasználatot
A mesterségesintelligencia-ügynökök egyik legnagyobb kihívása, hogy mikor használjanak külső eszközöket, és mikor bízzanak saját tudásukban. Sok modern nagy nyelvi modell azonban gyakran gondolkodás nélkül hívja segítségül a különböző eszközöket, ami késleltetést, felesleges API-költségeket és a logikai képességek romlását eredményezi.

Felesleges eszközhasználat – a metakognitív hiányosság

Nem elhanyagolható tényező, hogy a legtöbb jelenlegi MI-alapú ügynök szenved az úgynevezett metakognitív deficitben. Ezek a modellek nem tudnak hatékonyan dönteni aközött, hogy elegendő a saját paraméteres tudásuk, vagy külső segítségre van szükségük. Gyakran előfordul, hogy olyan API-hívásokat (például webkeresést vagy programkód végrehajtását) indítanak el, amikor a felhasználói kérésből már minden információ leszűrhető lenne. Ennek köszönhetően az MI-rendszerek lelassulnak, költségesen működnek, a túlzott eszközhasználat pedig információs zajt visz a feldolgozásba. Ez eltereli a modell figyelmét, így a végső válasz minősége is csökken.

A hagyományos megoldások korlátai

Míg korábbi megerősítéses tanulási módszerek próbálták visszaszorítani a felesleges eszközhasználatot, ezek általában az eszközhasználatot és a pontosságot egyetlen jutalmazási jelbe gyúrták össze. Ez azonban optimalizálási dilemmát szült: ha túlzottan büntetik az eszközhasználatot, a modell túlságosan óvatos lesz, pedig néha valóban szükség van külső eszközre. Ha viszont túl enyhe a büntetés, a rendszer előszeretettel hívogatja az API-kat, akár teljesen indokolatlanul is. Ráadásul egy helytelen, de gyors válasz épp annyira lehet „jutalmazott”, mint egy helyes, de feleslegesen bonyolított, többszörös eszközhasználattal keletkező eredmény.

A HDPO megoldása: szétválasztott optimalizáció

Ennek a problémának az orvoslására az Alibaba kutatói bevezették a Hierarchical Decoupled Policy Optimization (HDPO) keretrendszert. Ebben a modellben az MI tanulásában szétválik a helyes válaszadás és a végrehajtási hatékonyság optimalizációja. Az egyik komponens kizárólag a feladatmegoldás pontosságára figyel, míg a másik a gazdaságos eszközhasználatra fókuszál. Csak a veszteségszámítás végén egyesül a két optimalizációs jel, így a gyors, de rossz válasz sosem lehet jutalmazottabb, mint a helyes, még ha ahhoz több eszköz is kell. Ez az elkülönítés egyfajta „kognitív tanmenetet” eredményez: kezdetben a pontosság dominál, majd ahogy a modell egyre ügyesebben válaszol, fokozatosan fontosabbá válik számára a hatékony eszközhasználat is.


Adatkiválasztás és tanítási folyamat

A HDPO mellett a kutatók szigorú, többfázisú adattisztító és válogató folyamatot vezettek be. A felügyeleti finomhangolás során kiszűrték a gyenge minőségű, hibás vagy következetlen példákat, és eltávolították azokat, amelyeket az alapmodell eszközök nélkül is meg tudott oldani. Ezután egy automatizált bírálórendszerrel csak azokat a példákat hagyták meg, amelyek valóban stratégiai eszközhasználatot demonstráltak. A megerősítéses tanulási szakaszban kizárták a félreérthető vagy hibás vizuális elemeket, és csak azokat a kérdéseket tartották meg, amelyeknél tényleg volt értelmezhető különbség a sikeres és sikertelen megoldások között.

Metis: a HDPO sikeres demonstrációja

A kutatók a HDPO-val fejlesztették a Metis nevű multimodális ügynököt – a modell a Qwen3-VL-8B-Instruct képi-nyelvi alapmodellre épül, és képes programot futtatni, szöveget és képet elemezni. A tanítás első fázisa során válogatott példákat használtak, majd a HDPO módszerrel megerősítéses tanulással többfordulós, eszközhasználattal járó feladatokat gyakoroltattak vele.

Versenytársak és eredmények

A Metist összehasonlították vezető nyílt forráskódú modellekkel, például a LLaVA-OneVisionnal, és olyan nagy MI-ügynökökkel, mint a 30 milliárd paraméteres Skywork-R1V4. A tesztek dokumentumértésen, vizuális felfogáson és különösen matematikai-logikai feladatokon zajlottak (mint a HRBench, V*Bench, WeMath és MathVista készletek). Minden területen a Metis az élmezőnyben volt, sőt, több benchmarkon abszolút legjobban teljesített, miközben az eszközhívások arányát 98%-ról 2%-ra csökkentette.

Okosabb döntések, kevesebb felesleges munka

A Metis működésének lényege, hogy csak akkor hív külső eszközt, amikor arra tényleg szükség van. Például, ha egy múzeumi tábla szövege jól olvasható, fölösleges képkivágással vagy Python-kódgenerálással bajlódnia. Ugyanakkor, ha egy diagram apró részletét kell kiértékelni, és az önállóan nem megy, csak akkor használja a megfelelő kódrészletet a nagyításhoz.

Nem elhanyagolható tényező, hogy ennek köszönhetően a redundáns, zavaró eszközhasználat szinte megszűnt, miközben a végeredmény pontossága és a rendszer hatékonysága is nőtt. A fejlesztők szerint a jövő MI-ügynökei nemcsak abban lesznek jók, hogy miként kell eszközt használni, hanem abban is, hogy mikor nem érdemes segítségül hívni.

2026, adminboss, venturebeat.com alapján

Legfrissebb posztok

MA 08:57

A fejlesztői MI-asszisztensek gyenge pontjai: mindenki a kulcsokra hajt

🔑 Valódi kódoló MI-k sorozatos hibái borzolják a kedélyeket – az elmúlt kilenc hónapban olyan fejlesztői eszközök, mint a Codex, Claude Code, Copilot vagy a Vertex AI, súlyos sebezhetőségeken keresztül váltak támadások célpontjaivá...

MA 08:43

A brit hálózatokat még mindig az elavult technológia kísérti

Érdemes megérteni, hogy az Egyesült Királyságban ezrek működtetnek olyan informatikai rendszereket, amelyek kritikus sebezhetőségeit már több mint tíz éve feltárták...

MA 08:36

Most kapaszkodj: az ügyvéd, aki a Jeopardy!-t is leuralja

Őrület, de tényleg megtörtént: Derek Kaufman, a TMZ saját ügyvédje, este ott virított a Jeopardy!..

MA 07:57

Az új videojáték-óriás felforgatja a megjelenési naptárakat

A nagysikerű Subnautica folytatása végre hivatalos megjelenési dátumot kapott: 2026. május 14-én érkezik a várva várt Subnautica 2...

MA 07:22

Az ókori római bilik leleplezik: ősi parazita gyötörte az embereket

Az ókori Római Birodalom határán, a mai Bulgária területén feltárt éjjeliedények falán és alján megtapadt vizelet- és székletmaradványok új részleteket tártak fel a rómaiak egészségi állapotáról: ezekből kerültek elő a világ legrégebbi, emberben talált Cryptosporidium parazitájának nyomai...

MA 07:15

Az X1 Neo robotok átvették a gyártósort: önmagukat építik

🤖 A humanoid háztartási robotok elterjedésére még várni kell, hiszen sem a Tesla Optimus, sem a Figure AI modelljei nem kaphatók, míg az 1X 7,1 millió forintos Neo Home robotja is még csak előrendelhető...

MA 07:01

Az okostelefonos dráma: mit rejteget Kirsten Storms titkos viszonya?

📱 Na most kapaszkodj, mert Kirsten Storms, az Általános kórház (General Hospital) ikonikus sztárja most a franklini rendőrség vizsgálatának középpontjában áll...

MA 06:57

Az ősi fegyverek rejtélyes világa: felismered mindet?

⚔ Érdemes megvizsgálni, hogy a múlt harci eszközei mennyi érdekességet rejtenek magukban...

MA 06:43

Az április felrázta a techrészvényeket, de a buli még rázós

🎉 A Nasdaq Composite idén áprilisban olyan szárnyalásba kezdett, amilyet a 2020-as Covid-kitörés óta nem láttunk: több mint 15%-os növekedést produkált, ami messze felülmúlta a várakozásokat...

MA 06:36

Az NYT Connections ravasz feladványa: csőr vagy autópolír?

A Connections e kiadása ismét próbára tette a szórejtvények szerelmeseit. A 1055...

MA 06:29

A filléres vasalapú akkumulátorok átírhatják az energiatárolás szabályait

A kínai tudósok áttörést értek el a vasalapú áramlásos akkumulátorok fejlesztésében, amelyek akár 16 éves élettartamot ígérnek teljesítményromlás nélkül...

MA 06:22

A Windows új Xbox-módja: tényleg csak a külcsín változott?

🎮 A várva várt Xbox-mód végre megérkezett Windows 11-re, de a felhasználóknak csalódniuk kell, ha komolyabb teljesítményjavulásban bíztak...

MA 06:05

Történelmi események a mai napon (Május 1.)

Április 30-án királyi hatalomváltások, birodalomalapítások és sorsfordító politikai döntések formálták a világot...

csütörtök 20:34

Az igazi PlayStation-élmény PC-n: megérkezett a trükkös adapter

🎮 Végre elérhetővé vált a teljes PS5-ös DualSense-élmény PC-n is, anélkül, hogy kábelekkel kellene bajlódni...

csütörtök 20:23

Az ellenőrzés szigorodik: a Polymarket Wall Street-szintre emeli szabályait

A Polymarket, a kriptoalapú jóslási piac radikális lépést tett: megállapodott a Chainalysis-szel, hogy valós időben figyeljék a kereskedéseket...

csütörtök 20:12

Az új előrejelzési piac: a Gemini berobban az amerikai piacra

Az amerikai kriptopiacon hatalmas lendületet vett a verseny, miután a Winklevoss ikrek kriptotőzsdéje, a Gemini megszerezte a szükséges szövetségi engedélyeket a származékos és predikciós piaci tevékenységekhez...

csütörtök 20:01

Az olajár háborús csúcson: ennyivel fizetünk többet a benzinért

🔥 A Brent nyersolaj hordónkénti ára csütörtökön elérte a 126 dollárt (kb...

csütörtök 19:56

Az MI olcsón indul, de gigászi számlákat hoz

💸 Az MI térnyerése miatt egyre több vállalat helyezi át a hangsúlyt a kísérleti modellek fejlesztéséről a tényleges, mindennapos MI-alkalmazásokra...

csütörtök 19:45

A fél internet veszélyben: kritikus cPanel-sebezhetőség

Az online világ egyik legfontosabb webszerver-kezelő eszközében olyan súlyos biztonsági hibát fedeztek fel, amely több tízmillió weboldalt fenyeget...

csütörtök 19:24

Az AdGuard VPN Macen végre akadálymentesen használható

A legújabb, 2.9-es AdGuard VPN-frissítés a Mac-felhasználók jelentős csoportjának hoz igazán hasznos újítást: az alkalmazás most már akadálymentesen használható látássérült felhasználók számára is...

csütörtök 19:12

Berobbant a stabilcoin-láz: bankok és fintech cégek a digitális pénzvonaton

💰 Mint minden valamirevaló krimi, ez is csendben kezdődött: az Anchorage Digital, az egyik legnagyobb amerikai digitális letétkezelő most az M0-ra (ejtsd: „em nullára”) bízta a stabilcoin-technológiájának fejlesztését...

csütörtök 19:03

Az olcsó gamer fejhallgatók új királya? Glorious GHS Eternal teszt

🎧 A gamer fejhallgató választásánál mindig felmerül a dilemma: vezetékes vagy vezeték nélküli legyen a következő fülesem?..

csütörtök 18:57

Az MI önjáró lett: a Writer kihívja a techóriásokat

Érdekes felvetés, hogy az MI-alapú vállalati rendszerek mennyire tudnak beavatkozás nélkül működni...

csütörtök 18:45

Az igazi meglepetés: Ingyen kapod a Wasteland felújított kiadását, és működik!

Képzeld el, hogy egy váratlan hiba miatt teljesen ingyen be lehetett húzni a legendás Wasteland – Felújított kiadást (Wasteland Remastered) a Microsoft Store-ban...

csütörtök 18:34

Az időjárás-jelentés, ahol a hőségnek ára van

🌡 Felmerül a kérdés, hogy hová vezet az, amikor a gazdasági szereplők végül mindent, még a hőmérsékletet is pénzre váltható eseménnyé tesznek...

csütörtök 18:23

Az elszálló memóriaárak alaposan megterhelik a pénztárcákat

A fogyasztók egyre nehezebben jutnak hozzá megfizethető memóriához, miközben a félvezetőiparban hatalmas pénzek forognak...

csütörtök 17:14

Az Olden Era több mint nosztalgia: a stratégák mennyországa

🗺 Felmerül a kérdés, hogy lehetséges-e valóban újat mondani a nagy klasszikusok után, vagy az új versenyzők örökké csak az elődök nyomdokában járnak majd...

csütörtök 17:02

A bitcoin újra szárnyal: áttöri a 80 ezer dolláros határt?

🚀 A bitcoin ára ismét felfelé kúszik, de a 80 ezer dolláros (kb...

csütörtök 16:56

Az Equalizer-kábel: csodaszer a videokártyád védelmére, vagy átverés?

🔧 A videokártyák túlmelegedése újabban mindennapos probléma, ami miatt a gyártók nem csatlakozócserével, hanem újfajta kábelekkel és tápegységekkel igyekeznek biztonságot nyújtani...