Az MI-tanító botokat mostantól tényleg te irányítod

Tipikus eset, amikor egy fejlesztői platform rosszul dokumentált, elavult információkat tartalmaz, és ezek az adatok rendre bekerülnek a mesterséges intelligenciát betanító rendszerek tudástárába is. A fejlesztők évek óta küzdenek azzal, hogy az MI-botok vagy keresőmotorok valós időben, automatikusan gyűjtik az összes elérhető tartalmat, függetlenül attól, friss-e vagy már régóta elavult. Bíztak abban, hogy elég a noindex meta tag, a deprecation-bannerek és a kanonikus hivatkozások, a tapasztalatok azonban azt mutatják: az MI-tanító botokat nem hatja meg semmilyen jelzés, nekik minden tartalom egyformán hasznosnak tűnik.

Az MI-ügynököket nem érdekli a figyelmeztetés

Nem kizárt, hogy az MI-tanító botok százszor, ezerszer is lekérik ugyanazt az elavult dokumentációt, még akkor is, ha jól látható rajta a figyelmeztető sáv vagy a noindex tag. Az MI-tanító algoritmusok ugyanis főleg a teljes szöveg alapján tanulnak, a figyelmeztetéseket pedig csak egy újabb bekezdésnek érzékelik. Ha pedig letiltod a hozzáférést egy adott útvonalhoz, az MI-bot nem kap útmutatást arról sem, hogy helyette melyik a friss változat – azaz egy információs űrt hozol létre.

A helyzetet súlyosbítja, hogy a robots.txt is csak korlátozott védelmet nyújt, a lekérő botokat nehéz azonosítani, ráadásul minden tartalomfrissítés vagy struktúraváltás új szabályozást igényel. Az MI-modellképző botoknak arra lenne szükségük, hogy világosan megmondd: hol található a hiteles, aktuális információ.

Mit jelent a valóban kanonikus tartalom?

A HTML-címke standardizált megoldásként jelzi a keresőmotorok felé, hogy egy adott oldal melyik URL-címen tekintendő a hivatalos változatnak – ezt a legtöbb CMS automatikusan generálja, a weboldalak közel 70%-án eleve megtalálható. A Cloudflare mostantól automatikusan át tudja irányítani minden ellenőrzött MI-tanító botot az ilyen kanonikus címekre: vagyis ha van frissebb vagy hivatalosabb tartalom, akkor az MI-tanító bot nem az elavult oldalakat fogja letölteni, hanem rögtön a naprakész változathoz jut.

Így működik az új rendszer

A Redirects for AI Training rendszer két kulcselemre támaszkodik: egyrészt felismeri az MI-tanító botokat (például a GPTBotot, ClaudeBotot, Bytespidert), másrészt a HTML-kódban lévő kanonikus hivatkozásokat. Ha egy azonosított MI-tanító bot elavult oldalra érkezik, a Cloudflare automatikusan HTTP 301 átirányítást ad vissza a kanonikus célállomásra, és a botszoftver már csak az új, hivatalos oldalt kapja meg. Emberi felhasználót, keresőindexelést és más botokat ez nem érint, nekik továbbra is válaszol az eredeti oldal.

Például ha egy GPTBot a Wrangler CLI régi dokumentációját próbálja elérni, HTTP/1.1 301-es választ kap, amely az aktuális API-dokumentumhoz irányítja át. Így az MI-tanító bot kizárólag a naprakész tartalmat tölti le.

Az átirányítás nem mindenható

Fontos tudni, hogy a rendszer csak a jövőben érkező, MI-tanító kategóriába eső, ellenőrzött botokra hat, és nem javítja visszamenőleg azokat az adatokat, amiket a botok már letöltöttek. Az emberi felhasználók vagy más MI-ügynökök továbbra is megnézhetik az elavult oldalakat. Nem irányít át más domainen lévő (cross-origin) kanonikus hivatkozás esetén sem, és azokat a címkéket is figyelmen kívül hagyja, amelyek önmagukra mutatnak.

Miért nem elég a hagyományos átirányítási szabály?

Egyéni átirányítási szabályokat meg lehet adni böngészőazonosító alapján is, de ha sok elavult útvonalad van, ezt nehéz kézben tartani: minden változás új szabályozást igényel, a botokat külön kell követni, ráadásul a szokásos domain-migrációt és a kampány-URL-eket is terheli. Arról nem beszélve, hogy könnyen eltérhetnek a valós tartalmi változásoktól, mivel az admin ténylegesen kézzel újrakódolja azt, amit a kanonikus címke már deklarált.

Tapasztalatok a saját oldalon

A Cloudflare saját fejlesztői dokumentációs oldalán mérhető eredmények születtek: 2026 márciusában az OpenAI botja kb. 46 000-szer, az Anthropic 3 600-szor, a Meta pedig 1 700 alkalommal olvasott elavult, kivezetett dokumentációt. Ennek az lett az eredménye, hogy egy MI-asszisztens 2026 áprilisában még egy régi szintaxist javasolt a Wrangler CLI-hez, miközben már új eljárás szerint kellett volna dolgozni.

A Redirects for AI Training funkció bekapcsolása után az MI-tanító botok 100%-át sikerült átirányítani a frissebb dokumentációra már az első hét napban.

Bekapcsolás és ellenőrizhetőség

Ha egy weboldalon már létezik kanonikus címke, akkor a Cloudflare vezérlőpultján egyetlen kapcsolóval aktiválható a funkció, és onnantól minden ellenőrzött MI-tanító bot csak a legfrissebb információkat fogja látni. Az adminfelületen minden domainnél: AI Crawl Control > Quick Actions > Redirects for AI Training > kapcsoló bekapcsolása.

Útvonal-specifikus szabályozáshoz további beállításokat a fejlesztői dokumentációban lehet találni.

Így reagál a web az MI-botokra

A 301-es „Átirányítás” státuszkód minden MI-tanító kérésre az elvárt tartalomhoz vezeti a botokat, de összességében a böngészők és botok statisztikái azt mutatják: a weben az MI-botok kéréseinek 74%-a sikeres választ kap, 13,7%-a kliensoldali hibába, 11,3%-a átirányításba, 1,2%-a pedig szerverhibába ütközik. A GPTBot esetén ez még jobb arány – 83% sikeres, 4,7% átirányított, 2,7% nem található.

A Cloudflare Radar API teljes részletességgel mutatja, hogyan válaszolnak a webhelyek az MI-botokra, akár szegmensenként is elemezhető a forgalom. Így pontosan látható, melyik iparág vagy weboldal tiltja, irányítja át vagy szolgálja ki az MI-tanítókat.

A Redirects for AI Training lehetővé teszi, hogy szabályozd, milyen tartalomhoz férjenek hozzá az MI-tanító botok, míg a Radar analitikája arról ad képet, hogyan működik ez a teljes weben. Használd bátran az új funkciókat, hogy az MI ne csak az elavult történelemkönyvekből tanuljon!

2026, adminboss, blog.cloudflare.com alapján