
Eddig csak találgattak az MI-ügynökök
Az MI-ügynökök eddig idegen turistaként bolyongtak a weben – HTML-t kapartak, képernyőképeket készítettek, és rengeteg tokent pazaroltak el csupán arra, hogy megtalálják egy keresőmező helyét vagy gombok funkcióját. Legyen szó LangChain, Claude vagy OpenAI motorral készült asszisztensekről, mind ugyanazzal a problémával küzdöttek: a weboldalak embereknek készültek, nem gépeknek.
A helyzet komolysága ekkor vált nyilvánvalóvá, amikor nagyvállalatok is szembesültek azzal, mennyi energiát, időt és pénzt visz el a jelenlegi képernyőmentésen és HTML-elemzésen alapuló interakció. Egy olyan feladat, amit egy ember pár másodperc alatt megold, az MI-ügynöknél tucatnyi egymás utáni műveletet, megfelelő gombok felismerését, rengeteg lekérdezést és magas költségeket jelentett.
WebMCP: új szabvány, két API-val
A WebMCP két API segítségével hidalja át az MI-ügynökök és a weboldalak világa közötti szakadékot: a deklaratív és az imperatív megközelítés révén.
A deklaratív API lehetővé teszi, hogy már meglévő, jól strukturált HTML-űrlapokat csak minimálisan kelljen kiegészíteni ahhoz, hogy azokat az MI-ügynökök is könnyen használni tudják. Ha egy webes űrlap már amúgy is rendezett, a fejlesztők pusztán néhány sort adnak hozzá, és az MI-ügynökök máris automatikusan felismerik, hogy milyen eszközök (funkciók) érhetők el az adott oldalon.
Az imperatív API ott segít, ahol bonyolultabb, dinamikusan változó funkciókat kell megosztani az MI-vel. Az oldal JavaScript-kódjából egyetlen „tool” hívással (például searchProducts vagy orderPrints) az MI strukturált, jól dokumentált paraméterekkel érheti el az összetettebb szolgáltatásokat is – mindezt kliensoldalon, extra szerveroldali fejlesztés nélkül.
Sőt, egy ilyen tool-hívás akár több tucatnyi kattintásnak, böngészésnek és képernyőmentésnek vethet véget, amire korábban szükség volt. Egy webáruház például csupán egy strukturált keresési eszközt regisztrál, és az MI egy lépésben, strukturált JSON-adatot kap – a korábbi, lassú görgetés és képernyőképek helyett.
Költségek, megbízhatóság, fejlesztési sebesség
Az üzleti informatika szempontjából a WebMCP egyszerre három, régóta fennálló gondot old meg.
Rögtön mérhető eredményt hoz a költségek terén: kevesebb token fogy, kevesebb a kihívás a képernyőképek elemzésénél és HTML-feldolgozásnál. Emellett nő a megbízhatóság, hiszen az MI-ügynökök már nem találgatnak: pontosan látják, milyen eszközök, milyen paraméterekkel és eredménnyel használhatók. A hibák, amelyeket eddig a változó felületek és rejtőzködő elemek okoztak, szinte teljesen megszűnnek az új, jól definiált eszközkontraktusoknak köszönhetően.
A fejlesztőknek sem kell új szerveroldali infrastruktúrát építeni: a már meglévő JavaScript-kód egyszerűen hasznosítható, lényegében minden automatizálhatóvá válik, amit eddig a weben manuálisan végzett a felhasználó.
MI-felhasználó együttműködés: nem teljes automatizmus
A WebMCP filozófiája magában foglalja az emberi felügyeletet, a „human-in-the-loop” szemléletet. A szabvány három pillér mentén szervezi az együttműködést: a helyzet értelmezéséhez szükséges kontextust az ügynök teljes körűen megkapja, a felhasználó nevében végzett műveletek is átláthatók, és ha az MI elakad, a rendszer automatikusan visszaadja az irányítást az embernek.
Erre egy tipikus példa, amikor Maya az MI-asszisztensét megkéri, hogy találjon fenntartható esküvői ruhát. Az MI az oldalon elérhető getDresses vagy showDresses eszközöket hívja, összegyűjti és megszűri az adatokat Maya ízlése szerint, majd a releváns ruhák jelennek meg a böngészőben. A felhasználó és az MI folyamatosan együttműködnek – a teljesen önálló, „fej nélküli” automatizmust továbbra is más protokollok szolgálják, nem a WebMCP.
Nem helyettesíti, hanem kiegészíti a Model Context Protocolt
Fontos különbség, hogy a WebMCP nem helyettesíti az Anthropic-féle Model Context Protocolt (MCP), hanem éppen kiegészíti azt. Míg a klasszikus MCP szerveroldalról, külön futó szolgáltatásokkal dolgozik, a WebMCP teljes mértékben kliensoldali, a böngészőben futó felhasználói élményhez készült.
Ez a kettősség hatalmas előnyt jelent: egy utazási iroda például fenntart MCP-alapú backendet az MI-platformokhoz, de fogyasztói oldalán már WebMCP-t kínál Chrome-ban vagy Edge-ben futó ügynökök számára. Sőt, a legtöbb interaktív webes feladathoz éppen a WebMCP előnyeit fogják használni: élő, közös vizuális kontextussal, ahol a felhasználó végig jelen van.
WebMCP jövője és elérhetősége
Jelenleg a WebMCP a Chrome 146 Canary verziójában érhető el, a „WebMCP for testing” opció engedélyezésével. Részletes dokumentációk és demók is elérhetők a fejlesztői közösség számára. Bár más böngészők még nem jelentettek be hivatalos támogatást, az együttműködés a Microsofttal előrevetíti, hogy az Edge is csatlakozhat.
A WebMCP most lépett ki a W3C-fejlesztői inkubációból hivatalos szabványtervezetté, és ipari elemzők szerint 2026-ra már minden nagy böngészőben szabvány lesz. A Google és a Microsoft, a W3C támogatásával, már tesztelik az élő implementációt, Chrome-ban működik – vagyis az új szabvány már nemcsak terv, hanem valóság.
A cél, hogy a WebMCP az MI-ügynökök „USB-C portjává” váljon a weben – egységes, szabványos, megbízható kapcsolattal, a mostani, drága és instabil megoldások helyett. Hogy ez sikerül-e, azt a széles körű támogatás dönti el, de az első és legnagyobb akadályt már sikerült venni: működő szoftver lett a tervezetből.
