Mostantól te dönthetsz arról, ki láthatja a webes tartalmaidat

A nyílt és szabad internet megőrzése hosszú ideje kihívás: a tartalomkészítők számára nehéz eldönteni, miként védjék információikat az illetéktelen felhasználástól, miközben szeretnék azokat mindenki számára elérhetővé tenni. A legtöbben eddig két rossz között választhattak: vagy mindenki hozzáférhetett a tartalomhoz – vállalva az ezzel járó visszaélések kockázatát –, vagy jelszavas védelem mögé rejtették azt, ezzel viszont értékes látogatókat veszítettek. Fontos, hogy a Cloudflare új Content Signals Policy nevű kezdeményezése most valódi választási lehetőséget ad a weboldaltulajdonosoknak.

Mit tud a robots.txt – és mit nem?

A robots.txt fájl a weboldal gyökérmappájában található, és meghatározza, hogy mely robotok, keresőmotorok és automatizált szoftverek léphetnek be a site egyes területeire. Egy alapbeállítás mindenki számára hozzáférést engedhet a teljes webhelyhez, vagy épp tiltást állíthat be bizonyos mappákra, például az archívumra.

A robots.txt fájlban a # karakter utáni szöveg csak ember számára értelmezhető megjegyzés, a botok figyelmen kívül hagyják. Szűkíteni is lehet a hozzáférést például csak a Googlebot számára, vagy akár a teljes archívumot tilthatjuk le egyes szoftverek elől.

Ez azonban nem elég: bár kontrollálható, hogy ki fér hozzá, arról már nem küldünk üzenetet, hogy az adott szereplő mit tehet a már megszerzett tartalommal. Erre kínál új, közérthető és gép által olvasható szabályrendszert a Content Signals Policy.

Miért most érkezett el az idő?

Az elmúlt években a magukat MI-alapúként hirdető cégek óriási adatállományokat szipkáznak fel nap mint nap a weboldalakról. Ezzel a weboldaltulajdonosok úgy szenvednek veszteséget, hogy cserébe sem pénzt, sem látogatókat, sem hivatkozást nem kapnak. Egyre inkább ingyenélő mentalitás veszi át a hatalmat: előrejelzések szerint 2029-re a webes forgalom nagy részét már nem is emberek, hanem botok generálják majd, 2031-re pedig a botforgalom túlszárnyalhatja az egész jelenlegi internetforgalmat.

Régen ez másként volt: ha valaki átvette a tartalmadat, legalább feltüntette forrásként, vagy visszalinkelt az oldaladra. Ez még szellemi értéket is teremtett: az „attribúció”, vagyis a szerzői elismerés alapvető része volt az internet működésének, sőt ezt ma is előírják az MIT és a Creative Commons licencek. Ma ez a fair play háttérbe szorult, ezért sokan vagy teljesen bezárják tartalmaikat, vagy beletörődnek abba, hogy azokkal bárki visszaélhet, és elvesztik a forgalmat is.

Ha az alkotók kizárólag a teljes tiltás eszközéhez folyamodnak, az gátolja az új ötletek és a nyílt kommunikáció terjedését, valamint az MI-ökoszisztéma fiatal szereplőinek esélyeit is rombolja.

A Content Signals Policy működése

A megoldás: a robots.txt fájl kommentjeiben (tehát #-tel kezdődő sorokban) az üzemeltető egyszerűen jelezheti a gépek számára is, hogy milyen célra használható fel a tartalom a letöltést követően. Három fő tartalomszignált különböztetnek meg: “keresés” (search), “MI-bemenet” (ai-input), “MI-tanítás” (ai-train).

A szabályok értelmezése világos: a “yes” engedélyt, a “no” tiltást jelent, a hiányzó érték pedig sem nem engedélyez, sem nem tilt. Példa: ha egy site engedélyezi, hogy keresőmotorok indexeljék tartalmát (keresés=yes, search=yes), de kifejezetten tiltja annak MI-tréningre való felhasználását (MI-tanítás=no, ai-train=no), az így nézhet ki:

User-Agent: *
Content-Signal: search=yes, ai-train=no
Allow: /

Így a webhely üzemeltetője nyilvánvalóvá teheti szándékait anélkül, hogy minden egyes célhoz külön nyilatkozatot kellene fűznie. Fontos: ezek csak ajánlások, technikailag nem akadályozzák meg a tartalom felhasználását, de világos üzenetet adnak a civilizált botoknak – a többiek ellen továbbra is érdemes WAF-szabályokat és botmenedzsmentet alkalmazni.

Hogyan lehet beállítani?

A tartalomszignálok telepítése annyira egyszerű, mint bemásolni a szükséges sort a robots.txt fájlba. A Cloudflare automatikusan frissíti a több mint 3,8 millió olyan domain robots.txt-jét, ahol ezt a cég kezeli: ott alapból engedik a keresést, és tiltják az MI-tanítást.

A standard szöveg, valamint a saját szabályok összeállítása egyszerűen másolható a ContentSignals.org oldalról, vagy pár kattintással aktiválható.

A lényeget érdemes hangsúlyozni: a tartalomszignál inkább preferencia, mint szigorú szabály, de ma már ez is számít. A Cloudflare mindenki számára szabadon elérhetővé tette a Content Signals Policy-t egy CC0 licenc alatt.

Mi jöhet még?

A döntés joga visszakerül a tartalomtulajdonoshoz: ki engedi be a szuperintelligenciát, ki nem. Akik szeretik az MI-ket, beengedik őket, akik tartanak tőlük, kizárhatják – a lényeg, hogy végre ők maguk dönthetnek.

A tartalomszignálok korszerű eszközt adnak ahhoz, hogy világosan meg lehessen határozni, egy weboldal üzemeltetője mit enged és mit nem a tartalmával. A módszer csak akkor lesz igazán hasznos, ha egységesen elfogadottá válik; a Cloudflare ezért is dolgozik a nemzetközi szabványosításán.

Továbbra is mindenkit arra bátorítanak, hogy csatlakozzanak a kezdeményezéshez, hiszen a nyílt web még mindig megérdemli, hogy megvédjük.

2025, adminboss, blog.cloudflare.com alapján