Az MI titkos szövetségese: a Common Crawl és a fizetős cikkek

Az MI titkos szövetségese: a Common Crawl és a fizetős cikkek
A Common Crawl nevű nonprofit szervezet már több mint tíz éve milliárdnyi weboldalt gyűjt össze, hogy hatalmas internetarchívumot hozzon létre tudományos kutatások számára. Az utóbbi években azonban ez az adatbázis egyre vitatottabb célokat szolgál: olyan MI-fejlesztők, mint az OpenAI, a Google, az Anthropic, az Nvidia, a Meta és az Amazon használják modelljeik betanításához.

Fizetős cikkek titkos hasznosítása

A Common Crawl nemcsak a nyilvános internetet menti le, hanem a nagy hírportálokról származó, fizetőfal mögé rejtett cikkeket is, amelyekhez normális esetben csak előfizetéssel lehet hozzáférni. Ezekhez a tartalmakhoz a webes lementő egy programozási trükk segítségével jut hozzá: letölti a teljes szöveget, mielőtt az oldal ténylegesen lezárná azt az előfizetők számára. Így az MI-fejlesztők ingyen juthatnak hozzá a minőségi újságíráshoz, majd ezeket felhasználva készítenek híreket összegző vagy parafrazáló modelleket, amelyekkel végső soron épp a szerzőktől és kiadóktól vesznek el olvasókat és bevételeket.

Kereken tagadják a vádakat

A Common Crawl hivatalosan azt állítja, hogy csak szabadon elérhető tartalmakat ment le, nem mászik át fizetőfalakon, és készséggel eltávolít bármilyen tartalmat, ha a kiadók ezt kérik tőle. Ugyanakkor a gyakorlatban ez nem igaz: a letöltött fizetős cikkek mind a mai napig megjelennek MI-modellek tanítóanyagában, annak ellenére, hogy több kiadó kifejezetten kérte eltávolításukat.

Etikátlan vagy csak modern?

Az alapítvány vezetője, Rich Skrenta szerint ha valami az interneten van, akkor bárki hozzáférhet – szerinte az MI-modelleknek is joguk van olvasni, mint bárki másnak. Véleményét azzal védte, hogy a kiadók is nyilvánossá tették anyagaikat azon az áron, hogy az MI-robotok is elolvashatják azokat. Eközben a Common Crawl botja, a CCBot ma már a világ első 1000 leglátogatottabb oldalát is rendszeresen feltérképezi, a háttérben pedig tovább pumpálja a minőségi, gyakran fizetős tartalmat az MI-fejlesztőknek. Az MI-modellek elképesztő fejlődése nagyban köszönhető a Common Crawl archívumának – a GPT-3-at például főleg ezekből az adatokból fejlesztették, ami 2022-ben végül a ChatGPT (Csevegő MI) alapját is adta.

2025, adrienne, tech.slashdot.org alapján

Legfrissebb posztok

MA 11:02

Az új kínai robot annyira élethű, hogy fel kellett vágniuk

🤖 A kínai Xpeng autógyártó bemutatta legújabb humanoid robotját, az IRON-t, amely olyan természetes mozdulatokra képes, hogy a vállalat képviselői élőben, a színpadon felvágták, hogy bizonyítsák: nincs benne elrejtőzött ember...

szombat 12:19

Az otthoni robot, amely majdnem annyiba kerül, mint egy autó

Ez a robot 168 cm magas, tömege pedig nagyjából egy golden retrieveréhez hasonlítható, ára pedig majdnem egy új, olcsó autóéval vetekszik...

hétfő 14:02

A legfárasztóbb római istenségek: abszurd védelmezők panteonja

Nem szeretnénk kitérni a szerelem, a villámlás, vagy a háború isteneire, ilyene bárkiknek lehet, nézzünk valami eredetibbet...

MA 15:22

Az ultracsendes NASA szuperszonikus repülő új korszakot nyit

A NASA és a Lockheed Martin közös fejlesztése, az X-59 nevű kísérleti szuperszonikus repülőgép először emelkedett a levegőbe, és történelmet írhat azzal, hogy a hangsebesség átlépésekor a morajlás helyett csupán egy halk „dörrenés” hallatszik...

MA 15:13

Az Apple új üveghatású dizájnja tényleg jobb, vagy csak átlátszóbb?

Két hónapja jelent meg az iOS 26, amelyben az Apple gyökeresen átalakította az iPhone felületét...

MA 15:01

Az amerikaiak rálelnek a világ rejtett kincseire – 2026 legtrendibb úti céljai

🌎 Az utazás világa 2026-ban izgalmas változások előtt áll: az amerikaiak egyre inkább felfedezik saját hazájuk kevésbé ismert szegleteit is, miközben külföldre is szívesen kirándulnak új, turisták által alig érintett helyekre...

MA 14:51

Idén Black Friday alkalmával is vásárolj biztonságosan, használd ezt a privát VPN-t

Pár nap, és elstartol a Black Friday, a vásárlási láz már most érezhető...

MA 14:41

Az MI már veszélyesebb, mint a kollégád – így védd a céged!

⚠ A vállalatok egyre gyorsabban vetik be a generatív MI-t és az intelligens MI-ügynököket, ezzel azonban komoly biztonsági kockázatoknak teszik ki magukat...

MA 14:32

Az MI-lázban is szárnyalnak a Wall Street kedvenc techrészvényei

📈 Az MI-alapú részvényeknél tapasztalható magas értékelések uralják a piacokat, sok befektető tart egy újabb MI-lufi kialakulásától...

MA 14:22

Egy olcsó MacBook újra divatba hozhatja a netbookokat

💻 A netbookok árnyékában: az Apple olcsó gépet tervez Az Apple egy új, kifejezetten kedvező árú MacBookon dolgozik, amelyet egy, mobiltelefonokban is használt lapka hajtana...

MA 14:13

Öt képernyő nélküli fitnesztracker zavartalan edzésekhez

A mai okosórák minden értesítéssel és villogó képernyővel tűnnek ki, sokan azonban inkább visszavágynak a letisztultabb, figyelemelvonástól mentes fitneszkarperecekhez...

MA 14:01

Az elveszett pörölycápák titkait tárja fel a tengervíz DNS-e

🐟 A Florida International University tudósa forradalmi módszert alkotott a pörölycápák felkutatására – anélkül, hogy egyet is meg kellene figyelni az óceánban...

MA 13:51

Érkezik Attenborough új sorozata, a Birodalom az év természetfilmje

Sir David Attenborough vadonatúj sorozata, a Birodalom (Kingdom) öt éven át kísér négy állatcsaládot Zambia vadregényes Dél-Luangwa Nemzeti Parkjában...

MA 13:41

Az emberi kéz még számít: Pluribus keményen beszólt az MI-nek

Vince Gilligan, a Totál szívás (Breaking Bad) alkotója új sorozatával, a Pluribus-szal (Pluribus) egyértelműen üzent a világnak: kiírták a stáblistára, hogy ezt a sorozatot még emberek készítették...

MA 13:32

Az eső igazi forrása az erdő, nélkülük jöhet az aszály

A klasszikus elképzeléssel szemben nemcsak az számít, mennyi eső esik, hanem az is, honnan származik a csapadék...

MA 13:22

A neandervölgyiek lehettek az első művészek az ősi barlangrajzok alapján

🖌 Az emberré válás egyik legmeghatározóbb ismérve a művészi alkotás képessége – ezt sokáig kizárólag a modern emberhez kötötték...

MA 13:11

Az MI árnyéka vetül a geekek Davosára

Lisszabon jövő héten technológiai központtá alakul, hiszen itt rendezik meg a Web Summit konferenciát, amelyet gyakran a geekek Davosaként emlegetnek...

MA 13:01

Az új lézeres kezelés megállíthatja a vakságot idő előtt

Egy forradalmi lézeres eljárás segítségével az orvosok képesek lehetnek megállítani, vagy legalább lelassítani a száraz makuladegeneráció korai szakaszát...

MA 12:51

Az OpenAI újabb MI-csodákat ígér: Jön a GPT–5.1

Az OpenAI hamarosan bemutatja a GPT–5.1 modelleket, köztük a sima GPT–5...