
Mit tud a robots.txt – és mit nem?
A robots.txt fájl a weboldal gyökérmappájában található, és meghatározza, hogy mely robotok, keresőmotorok és automatizált szoftverek léphetnek be a site egyes területeire. Egy alapbeállítás mindenki számára hozzáférést engedhet a teljes webhelyhez, vagy épp tiltást állíthat be bizonyos mappákra, például az archívumra.
A robots.txt fájlban a # karakter utáni szöveg csak ember számára értelmezhető megjegyzés, a botok figyelmen kívül hagyják. Szűkíteni is lehet a hozzáférést például csak a Googlebot számára, vagy akár a teljes archívumot tilthatjuk le egyes szoftverek elől.
Ez azonban nem elég: bár kontrollálható, hogy ki fér hozzá, arról már nem küldünk üzenetet, hogy az adott szereplő mit tehet a már megszerzett tartalommal. Erre kínál új, közérthető és gép által olvasható szabályrendszert a Content Signals Policy.
Miért most érkezett el az idő?
Az elmúlt években a magukat MI-alapúként hirdető cégek óriási adatállományokat szipkáznak fel nap mint nap a weboldalakról. Ezzel a weboldaltulajdonosok úgy szenvednek veszteséget, hogy cserébe sem pénzt, sem látogatókat, sem hivatkozást nem kapnak. Egyre inkább ingyenélő mentalitás veszi át a hatalmat: előrejelzések szerint 2029-re a webes forgalom nagy részét már nem is emberek, hanem botok generálják majd, 2031-re pedig a botforgalom túlszárnyalhatja az egész jelenlegi internetforgalmat.
Régen ez másként volt: ha valaki átvette a tartalmadat, legalább feltüntette forrásként, vagy visszalinkelt az oldaladra. Ez még szellemi értéket is teremtett: az „attribúció”, vagyis a szerzői elismerés alapvető része volt az internet működésének, sőt ezt ma is előírják az MIT és a Creative Commons licencek. Ma ez a fair play háttérbe szorult, ezért sokan vagy teljesen bezárják tartalmaikat, vagy beletörődnek abba, hogy azokkal bárki visszaélhet, és elvesztik a forgalmat is.
Ha az alkotók kizárólag a teljes tiltás eszközéhez folyamodnak, az gátolja az új ötletek és a nyílt kommunikáció terjedését, valamint az MI-ökoszisztéma fiatal szereplőinek esélyeit is rombolja.
A Content Signals Policy működése
A megoldás: a robots.txt fájl kommentjeiben (tehát #-tel kezdődő sorokban) az üzemeltető egyszerűen jelezheti a gépek számára is, hogy milyen célra használható fel a tartalom a letöltést követően. Három fő tartalomszignált különböztetnek meg: “keresés” (search), “MI-bemenet” (ai-input), “MI-tanítás” (ai-train).
A szabályok értelmezése világos: a “yes” engedélyt, a “no” tiltást jelent, a hiányzó érték pedig sem nem engedélyez, sem nem tilt. Példa: ha egy site engedélyezi, hogy keresőmotorok indexeljék tartalmát (keresés=yes, search=yes), de kifejezetten tiltja annak MI-tréningre való felhasználását (MI-tanítás=no, ai-train=no), az így nézhet ki:
User-Agent: *
Content-Signal: search=yes, ai-train=no
Allow: /
Így a webhely üzemeltetője nyilvánvalóvá teheti szándékait anélkül, hogy minden egyes célhoz külön nyilatkozatot kellene fűznie. Fontos: ezek csak ajánlások, technikailag nem akadályozzák meg a tartalom felhasználását, de világos üzenetet adnak a civilizált botoknak – a többiek ellen továbbra is érdemes WAF-szabályokat és botmenedzsmentet alkalmazni.
Hogyan lehet beállítani?
A tartalomszignálok telepítése annyira egyszerű, mint bemásolni a szükséges sort a robots.txt fájlba. A Cloudflare automatikusan frissíti a több mint 3,8 millió olyan domain robots.txt-jét, ahol ezt a cég kezeli: ott alapból engedik a keresést, és tiltják az MI-tanítást.
A standard szöveg, valamint a saját szabályok összeállítása egyszerűen másolható a ContentSignals.org oldalról, vagy pár kattintással aktiválható.
A lényeget érdemes hangsúlyozni: a tartalomszignál inkább preferencia, mint szigorú szabály, de ma már ez is számít. A Cloudflare mindenki számára szabadon elérhetővé tette a Content Signals Policy-t egy CC0 licenc alatt.
Mi jöhet még?
A döntés joga visszakerül a tartalomtulajdonoshoz: ki engedi be a szuperintelligenciát, ki nem. Akik szeretik az MI-ket, beengedik őket, akik tartanak tőlük, kizárhatják – a lényeg, hogy végre ők maguk dönthetnek.
A tartalomszignálok korszerű eszközt adnak ahhoz, hogy világosan meg lehessen határozni, egy weboldal üzemeltetője mit enged és mit nem a tartalmával. A módszer csak akkor lesz igazán hasznos, ha egységesen elfogadottá válik; a Cloudflare ezért is dolgozik a nemzetközi szabványosításán.
Továbbra is mindenkit arra bátorítanak, hogy csatlakozzanak a kezdeményezéshez, hiszen a nyílt web még mindig megérdemli, hogy megvédjük.
