Az MI titkos szövetségese: a Common Crawl és a fizetős cikkek

Az MI titkos szövetségese: a Common Crawl és a fizetős cikkek
A Common Crawl nevű nonprofit szervezet már több mint tíz éve milliárdnyi weboldalt gyűjt össze, hogy hatalmas internetarchívumot hozzon létre tudományos kutatások számára. Az utóbbi években azonban ez az adatbázis egyre vitatottabb célokat szolgál: olyan MI-fejlesztők, mint az OpenAI, a Google, az Anthropic, az Nvidia, a Meta és az Amazon használják modelljeik betanításához.

Fizetős cikkek titkos hasznosítása

A Common Crawl nemcsak a nyilvános internetet menti le, hanem a nagy hírportálokról származó, fizetőfal mögé rejtett cikkeket is, amelyekhez normális esetben csak előfizetéssel lehet hozzáférni. Ezekhez a tartalmakhoz a webes lementő egy programozási trükk segítségével jut hozzá: letölti a teljes szöveget, mielőtt az oldal ténylegesen lezárná azt az előfizetők számára. Így az MI-fejlesztők ingyen juthatnak hozzá a minőségi újságíráshoz, majd ezeket felhasználva készítenek híreket összegző vagy parafrazáló modelleket, amelyekkel végső soron épp a szerzőktől és kiadóktól vesznek el olvasókat és bevételeket.

Kereken tagadják a vádakat

A Common Crawl hivatalosan azt állítja, hogy csak szabadon elérhető tartalmakat ment le, nem mászik át fizetőfalakon, és készséggel eltávolít bármilyen tartalmat, ha a kiadók ezt kérik tőle. Ugyanakkor a gyakorlatban ez nem igaz: a letöltött fizetős cikkek mind a mai napig megjelennek MI-modellek tanítóanyagában, annak ellenére, hogy több kiadó kifejezetten kérte eltávolításukat.

Etikátlan vagy csak modern?

Az alapítvány vezetője, Rich Skrenta szerint ha valami az interneten van, akkor bárki hozzáférhet – szerinte az MI-modelleknek is joguk van olvasni, mint bárki másnak. Véleményét azzal védte, hogy a kiadók is nyilvánossá tették anyagaikat azon az áron, hogy az MI-robotok is elolvashatják azokat. Eközben a Common Crawl botja, a CCBot ma már a világ első 1000 leglátogatottabb oldalát is rendszeresen feltérképezi, a háttérben pedig tovább pumpálja a minőségi, gyakran fizetős tartalmat az MI-fejlesztőknek. Az MI-modellek elképesztő fejlődése nagyban köszönhető a Common Crawl archívumának – a GPT-3-at például főleg ezekből az adatokból fejlesztették, ami 2022-ben végül a ChatGPT (Csevegő MI) alapját is adta.

2025, adrienne, tech.slashdot.org alapján

Legfrissebb posztok

MA 18:17

Az Apple-vezér nagy Nike-bevásárlása: Tim Cook nyomában

Mi is beszálltunk a Nike részvényeibe, miután több vezető is nagyobb összeget fektetett a cégbe...

MA 17:34

Az orvosok megdöbbentek: karácsonyfa lett egy férfi húgyhólyagja

🎄 Egy 30 éves nigériai férfinál különös húgyúti elváltozást fedeztek fel, aminek következtében a húgyhólyagja alsó része karácsonyfa alakúra duzzadt...

MA 17:17

Az írók megint perbe szállnak a nagy MI-cégekkel a lopott könyvekért

Egy csoport ismert szerző, köztük John Carreyrou, újabb pert indított hat vezető MI-vállalat ellen, amiért azok állítólag könyveik kalózmásolatait használták fel a modellek betanításához...

MA 17:02

Az európai parkettek ingadoznak, a Novo Nordisk száguld

Az európai piacok szerdán vegyesen zártak, miután a befektetők az év végéhez közeledve mérlegelték az ingadozó év eredményeit a karácsony előtti rövid kereskedési napon...

MA 16:33

Az indiai űrrekord: még sosem indult ekkora műhold

🚀 India űrkutatási hivatala, az ISRO minden eddiginél nehezebb terhet juttatott az űrbe: az LVM3-M6 rakétával pályára állított egy 6100 kilogrammos amerikai kommunikációs műholdat, az AST SpaceMobile vállalat egyik eszközét...

MA 16:17

Az Apple megnyitja a kaput a külső appok előtt Brazíliában

Az Apple 2025-ben Brazíliában is lehetővé teszi harmadik féltől származó alkalmazásboltok használatát iOS-en, miután többéves jogi huzavona után megegyezett az ország versenyhatóságával...

MA 16:03

Az ősi barlangok földjén: a DNS-időkapszulái nyomában

🔥 Az elmúlt két évtizedben hatalmas forradalom zajlott a múlt kutatásában, különösen azáltal, hogy a csontokból kivont ősi DNS-t ma már korszerű módszerekkel vizsgálják...

MA 15:50

Az Amazon és az MI‑vásárlóbotok csatája: szövetséges vagy közellenség?

A fejlemények villámgyorsan követték egymást az online kereskedelemben: MI-alapú vásárlóbotok és automatizált eszközök áradata indult meg, amelyek teljesen átalakíthatják, ahogyan online vásárolunk...

MA 15:35

A valódi karácsonyfák jövője: harc a hőhullámokkal és aszállyal

🎄 Hihetetlen, de mégis igaz, hogy a karácsonyfák túlélése egyre nagyobb kihívást jelent a klímaváltozás miatt...

MA 15:18

Az élővilág aranykora: egymást érik az új fajok

🌱 Az utóbbi években hihetetlen tempóra kapcsolt a Föld élővilágának feltérképezése. Ma évente több mint 16 000 új fajt azonosítanak a kutatók, sokkal gyorsabban, mint bármikor korábban...

MA 15:04

A Google 2025-ös MI-áttörései felrázzák a világot

2025 elképesztő lendületet adott a mesterséges intelligenciának és a tudományos kutatásnak...

MA 14:49

A Nex Playground: a MI-vezérelt konzol, amely felpörgeti a nappalit

A Nex Playground két év alatt óriási sikert aratott a családok körében...

MA 14:35

Valóban felére csökkenti a késői rákdiagnózisokat az új vérteszt?

🧠 Képzelj el egy vérvételt, ami 14-féle rákot képes kimutatni – úgy, hogy még csak a tumor közelébe sem kell menni...

MA 14:17

Az év kriptolopása: Ilyen pofátlan lenyúlást még nem láttunk

2025-ben a kiberbűnözők történelmi rekordot döntöttek: 2,7 milliárd dollárnyi (kb. 995 milliárd forint) kriptovalutát loptak el világszerte...

MA 13:50

A meglepő ok, amiért a macskák többet nyávognak a férfiaknak

🐱 Az évezredek óta mellettünk élő macskák igazi mesterei annak, hogyan manipulálják az embereket, hogy elérjék céljukat...

MA 13:33

A BP túlad a Castrol többségén

A BP bejelentette, hogy eladja a Castrol kenőanyag-gyártó üzletágának 65%-os tulajdonrészét a Stonepeak befektetői csoportnak, nagyjából 2 160 milliárd forintért (6 milliárd USD), ami a Castrol teljes értékét 3 630 milliárd forintra (10,1 milliárd USD) teszi...

MA 13:17

Az Armist rekordösszegért kebelezi be a ServiceNow

A ServiceNow bejelentette, hogy 7,75 milliárd dollárért, azaz közel 2 790 milliárd forintért megvásárolja az Armis nevű kiberbiztonsági startupot...

MA 13:02

Az új Wegovy-tabletta: végre injekció nélkül fogyhatunk

💪 Akik eddig az injekcióktól tartottak a népszerű GLP-1-alapú fogyókúrás szerek esetében, hamarosan megkönnyebbülhetnek: az amerikai hatóságok jóváhagyták a Wegovy tablettás változatát, amely akár már a következő hónapban elérhető lehet...

MA 12:49

Az új fém nanorészecskék kímélik a szervezetet, kiirtják a rákot

Ausztrál kutatók apró, fémalapú nanorészecskéket fejlesztettek ki, amelyek képesek a rákos sejteket elpusztítani anélkül, hogy a környező egészséges szöveteket komolyabban károsítanák...