Az MI titkos szövetségese: a Common Crawl és a fizetős cikkek

Az MI titkos szövetségese: a Common Crawl és a fizetős cikkek
A Common Crawl nevű nonprofit szervezet már több mint tíz éve milliárdnyi weboldalt gyűjt össze, hogy hatalmas internetarchívumot hozzon létre tudományos kutatások számára. Az utóbbi években azonban ez az adatbázis egyre vitatottabb célokat szolgál: olyan MI-fejlesztők, mint az OpenAI, a Google, az Anthropic, az Nvidia, a Meta és az Amazon használják modelljeik betanításához.

Fizetős cikkek titkos hasznosítása

A Common Crawl nemcsak a nyilvános internetet menti le, hanem a nagy hírportálokról származó, fizetőfal mögé rejtett cikkeket is, amelyekhez normális esetben csak előfizetéssel lehet hozzáférni. Ezekhez a tartalmakhoz a webes lementő egy programozási trükk segítségével jut hozzá: letölti a teljes szöveget, mielőtt az oldal ténylegesen lezárná azt az előfizetők számára. Így az MI-fejlesztők ingyen juthatnak hozzá a minőségi újságíráshoz, majd ezeket felhasználva készítenek híreket összegző vagy parafrazáló modelleket, amelyekkel végső soron épp a szerzőktől és kiadóktól vesznek el olvasókat és bevételeket.

Kereken tagadják a vádakat

A Common Crawl hivatalosan azt állítja, hogy csak szabadon elérhető tartalmakat ment le, nem mászik át fizetőfalakon, és készséggel eltávolít bármilyen tartalmat, ha a kiadók ezt kérik tőle. Ugyanakkor a gyakorlatban ez nem igaz: a letöltött fizetős cikkek mind a mai napig megjelennek MI-modellek tanítóanyagában, annak ellenére, hogy több kiadó kifejezetten kérte eltávolításukat.

Etikátlan vagy csak modern?

Az alapítvány vezetője, Rich Skrenta szerint ha valami az interneten van, akkor bárki hozzáférhet – szerinte az MI-modelleknek is joguk van olvasni, mint bárki másnak. Véleményét azzal védte, hogy a kiadók is nyilvánossá tették anyagaikat azon az áron, hogy az MI-robotok is elolvashatják azokat. Eközben a Common Crawl botja, a CCBot ma már a világ első 1000 leglátogatottabb oldalát is rendszeresen feltérképezi, a háttérben pedig tovább pumpálja a minőségi, gyakran fizetős tartalmat az MI-fejlesztőknek. Az MI-modellek elképesztő fejlődése nagyban köszönhető a Common Crawl archívumának – a GPT-3-at például főleg ezekből az adatokból fejlesztették, ami 2022-ben végül a ChatGPT (Csevegő MI) alapját is adta.

2025, adrienne, tech.slashdot.org alapján

Legfrissebb posztok

MA 16:17

Az Apple megnyitja a kaput a külső appok előtt Brazíliában

Az Apple 2025-ben Brazíliában is lehetővé teszi harmadik féltől származó alkalmazásboltok használatát iOS-en, miután többéves jogi huzavona után megegyezett az ország versenyhatóságával...

MA 16:03

Az ősi barlangok földjén: a DNS-időkapszulái nyomában

🔥 Az elmúlt két évtizedben hatalmas forradalom zajlott a múlt kutatásában, különösen azáltal, hogy a csontokból kivont ősi DNS-t ma már korszerű módszerekkel vizsgálják...

MA 15:50

Az Amazon és az MI‑vásárlóbotok csatája: szövetséges vagy közellenség?

A fejlemények villámgyorsan követték egymást az online kereskedelemben: MI-alapú vásárlóbotok és automatizált eszközök áradata indult meg, amelyek teljesen átalakíthatják, ahogyan online vásárolunk...

MA 15:35

A valódi karácsonyfák jövője: harc a hőhullámokkal és aszállyal

🎄 Hihetetlen, de mégis igaz, hogy a karácsonyfák túlélése egyre nagyobb kihívást jelent a klímaváltozás miatt...

MA 15:18

Az élővilág aranykora: egymást érik az új fajok

🌱 Az utóbbi években hihetetlen tempóra kapcsolt a Föld élővilágának feltérképezése. Ma évente több mint 16 000 új fajt azonosítanak a kutatók, sokkal gyorsabban, mint bármikor korábban...

MA 15:04

A Google 2025-ös MI-áttörései felrázzák a világot

2025 elképesztő lendületet adott a mesterséges intelligenciának és a tudományos kutatásnak...

MA 14:49

A Nex Playground: a MI-vezérelt konzol, amely felpörgeti a nappalit

A Nex Playground két év alatt óriási sikert aratott a családok körében...

MA 14:35

Valóban felére csökkenti a késői rákdiagnózisokat az új vérteszt?

🧠 Képzelj el egy vérvételt, ami 14-féle rákot képes kimutatni – úgy, hogy még csak a tumor közelébe sem kell menni...

MA 14:17

Az év kriptolopása: Ilyen pofátlan lenyúlást még nem láttunk

2025-ben a kiberbűnözők történelmi rekordot döntöttek: 2,7 milliárd dollárnyi (kb. 995 milliárd forint) kriptovalutát loptak el világszerte...

MA 13:50

A meglepő ok, amiért a macskák többet nyávognak a férfiaknak

🐱 Az évezredek óta mellettünk élő macskák igazi mesterei annak, hogyan manipulálják az embereket, hogy elérjék céljukat...

MA 13:33

A BP túlad a Castrol többségén

A BP bejelentette, hogy eladja a Castrol kenőanyag-gyártó üzletágának 65%-os tulajdonrészét a Stonepeak befektetői csoportnak, nagyjából 2 160 milliárd forintért (6 milliárd USD), ami a Castrol teljes értékét 3 630 milliárd forintra (10,1 milliárd USD) teszi...

MA 13:17

Az Armist rekordösszegért kebelezi be a ServiceNow

A ServiceNow bejelentette, hogy 7,75 milliárd dollárért, azaz közel 2 790 milliárd forintért megvásárolja az Armis nevű kiberbiztonsági startupot...

MA 13:02

Az új Wegovy-tabletta: végre injekció nélkül fogyhatunk

💪 Akik eddig az injekcióktól tartottak a népszerű GLP-1-alapú fogyókúrás szerek esetében, hamarosan megkönnyebbülhetnek: az amerikai hatóságok jóváhagyták a Wegovy tablettás változatát, amely akár már a következő hónapban elérhető lehet...

MA 12:49

Az új fém nanorészecskék kímélik a szervezetet, kiirtják a rákot

Ausztrál kutatók apró, fémalapú nanorészecskéket fejlesztettek ki, amelyek képesek a rákos sejteket elpusztítani anélkül, hogy a környező egészséges szöveteket komolyabban károsítanák...

MA 12:33

Az örök helymegosztás áldás vagy átok a családban?

Késő este eluralkodott rajtam az aggodalom: többször is próbáltam elérni a feleségemet, de minden alkalommal csak az az üzenet jött, hogy a hívás nem indítható...

MA 12:18

Az OpenAI gyerekbántalmazási riasztásai kilőttek – de miért?

⚠ 2025 első felében az OpenAI nyolcvanszor több, gyermekek ellen elkövetett visszaélésről szóló bejelentést tett a National Center for Missing & Exploited Children (Eltűnt és Kizsákmányolt Gyermekek Nemzeti Központja) felé, mint 2024 ugyanezen időszakában...

MA 12:01

Az Anna’s Archive valóban ellopta a Spotify teljes zenei könyvtárát?

🔍 A magukat kalózaktivistának valló Anna’s Archive tagjai bejelentették, hogy lementették a teljes Spotify zenei könyvtárat, amely közel 256 millió zeneszámot tartalmaz...

MA 11:33

A Chrome új botránya: két bővítmény lopja a felhasználók adatait

🕵 Két veszélyes Chrome-bővítmény, amelyek „Phantom Shuttle” néven szerepelnek, kifejezetten arra készültek, hogy ellopják a felhasználók bizalmas adatait, és rejtett csatornákon keresztül átirányítsák a webes forgalmat...

MA 11:01

Az új WebRAT-trükk: kamu sebezhetőségek árasztják el a GitHubot

🚨 A WebRAT nevű kártevő új módszerrel támad: a GitHubon úgynevezett sebezhetőség-kihasználó kódokat ígérő tárolókon keresztül terjesztik...