Az MI titkos szövetségese: a Common Crawl és a fizetős cikkek

Az MI titkos szövetségese: a Common Crawl és a fizetős cikkek
A Common Crawl nevű nonprofit szervezet már több mint tíz éve milliárdnyi weboldalt gyűjt össze, hogy hatalmas internetarchívumot hozzon létre tudományos kutatások számára. Az utóbbi években azonban ez az adatbázis egyre vitatottabb célokat szolgál: olyan MI-fejlesztők, mint az OpenAI, a Google, az Anthropic, az Nvidia, a Meta és az Amazon használják modelljeik betanításához.

Fizetős cikkek titkos hasznosítása

A Common Crawl nemcsak a nyilvános internetet menti le, hanem a nagy hírportálokról származó, fizetőfal mögé rejtett cikkeket is, amelyekhez normális esetben csak előfizetéssel lehet hozzáférni. Ezekhez a tartalmakhoz a webes lementő egy programozási trükk segítségével jut hozzá: letölti a teljes szöveget, mielőtt az oldal ténylegesen lezárná azt az előfizetők számára. Így az MI-fejlesztők ingyen juthatnak hozzá a minőségi újságíráshoz, majd ezeket felhasználva készítenek híreket összegző vagy parafrazáló modelleket, amelyekkel végső soron épp a szerzőktől és kiadóktól vesznek el olvasókat és bevételeket.

Kereken tagadják a vádakat

A Common Crawl hivatalosan azt állítja, hogy csak szabadon elérhető tartalmakat ment le, nem mászik át fizetőfalakon, és készséggel eltávolít bármilyen tartalmat, ha a kiadók ezt kérik tőle. Ugyanakkor a gyakorlatban ez nem igaz: a letöltött fizetős cikkek mind a mai napig megjelennek MI-modellek tanítóanyagában, annak ellenére, hogy több kiadó kifejezetten kérte eltávolításukat.

Etikátlan vagy csak modern?

Az alapítvány vezetője, Rich Skrenta szerint ha valami az interneten van, akkor bárki hozzáférhet – szerinte az MI-modelleknek is joguk van olvasni, mint bárki másnak. Véleményét azzal védte, hogy a kiadók is nyilvánossá tették anyagaikat azon az áron, hogy az MI-robotok is elolvashatják azokat. Eközben a Common Crawl botja, a CCBot ma már a világ első 1000 leglátogatottabb oldalát is rendszeresen feltérképezi, a háttérben pedig tovább pumpálja a minőségi, gyakran fizetős tartalmat az MI-fejlesztőknek. Az MI-modellek elképesztő fejlődése nagyban köszönhető a Common Crawl archívumának – a GPT-3-at például főleg ezekből az adatokból fejlesztették, ami 2022-ben végül a ChatGPT (Csevegő MI) alapját is adta.

2025, adrienne, tech.slashdot.org alapján

Legfrissebb posztok

MA 11:02

Az új kínai robot annyira élethű, hogy fel kellett vágniuk

🤖 A kínai Xpeng autógyártó bemutatta legújabb humanoid robotját, az IRON-t, amely olyan természetes mozdulatokra képes, hogy a vállalat képviselői élőben, a színpadon felvágták, hogy bizonyítsák: nincs benne elrejtőzött ember...

szombat 12:19

Az otthoni robot, amely majdnem annyiba kerül, mint egy autó

Ez a robot 168 cm magas, tömege pedig nagyjából egy golden retrieveréhez hasonlítható, ára pedig majdnem egy új, olcsó autóéval vetekszik...

hétfő 14:02

A legfárasztóbb római istenségek: abszurd védelmezők panteonja

Nem szeretnénk kitérni a szerelem, a villámlás, vagy a háború isteneire, ilyene bárkiknek lehet, nézzünk valami eredetibbet...

MA 12:21

Anyatejet szivárgó hónalj: ritka mellrendellenesség

Egy 35 éves Fülöp-szigeteki nő szokatlan panasszal fordult orvoshoz: szülés után mindkét hónaljában fájdalmatlan, a bőrszínével megegyező duzzanat jelent meg, miközben szoptatott...

MA 12:11

Az MI még mindig nem képes önállóan eladni semmit

📦 A Microsoft nemrégiben létrehozott egy teljesen virtuális online piacteret, a Magentic Marketplace-et, hogy kiderítse, mire képesek az MI-alapú ügynökök emberi felügyelet nélkül...

MA 12:01

Miért nincs buborék a mikróban forrósított vízben?

💧 Amikor egy fazék vizet forralunk a tűzhelyen, apró buborékok jelzik először, hogy melegszik a víz...

MA 12:01

Történelmi események a mai napon (November 9.)

Ma emlékezünk a Berlini fal leomlására, amikor Kelet-Németország megnyitotta a határokat, és polgárai szabadon átléphettek Nyugat-Berlinbe...

MA 11:41

Újabb GlassWorm-támadás: fertőzött VSCode-bővítmények tarolnak

A GlassWorm nevű rosszindulatú kód ismét visszatért az OpenVSX piacterére, ezúttal három új Visual Studio Code-bővítmény formájában, amelyeket már több mint 10 000 alkalommal töltöttek le...

MA 11:32

Most még megőrizhetik biztonságukat a Windows 10 felhasználók

Megszűnt a támogatás, de még van megoldás A Windows 10 hivatalos támogatása 2025...

MA 11:22

Forró hangulat és nagy tét az idei klímacsúcson

🔥 Brazília Amazonasának szívében, Belém városában gyűlnek össze idén a világ vezetői és klímaügyi delegáltjai, hogy újra megpróbáljanak közös nevezőre jutni a bolygó jövőjét meghatározó kérdésekben...

MA 10:58

Az Apple Watch SE 3 már nagyon olcsó, brutális adventi akciók indultak

November eleje bővelkedik akciókban: az Apple legújabb okosórája rekordáron kapható, miközben temérdek Black Friday előtti ajánlat várja a vásárlókat a tech- és szórakoztatótermékektől a karácsonyi dekorációig...

MA 10:50

Rejtélyes anyag, szigetelőként viselkedő fém a tudósok előtt

🧠 A Michigani Egyetem kutatói nemrég valóban meghökkentő felfedezést tettek: sikerült kimutatniuk kvantumos oszcillációkat egy szigetelő anyag belsejében, amivel teljesen új perspektívát nyitottak az anyagtudományban...

MA 10:43

Az egyetlen hegy, ahonnan három óceánba folyik a víz

Montana északi részén, a Glacier Nemzeti Parkban található a Triple Divide Peak, a Föld egyetlen olyan pontja, ahonnan a víz három különböző óceánba is eljuthat...

MA 10:29

Az első norvég könyv: fókabőrbe kötött énekeskönyv

A Norvég Nemzeti Könyvtár szakértői szerint egy apró, fókabőrrel borított középkori énekeskönyv lehet Norvégia legrégebbi fennmaradt könyve...

MA 10:22

Az orvostudomány új titkos fegyvere: a DNS rejtett ereje

A DNS most felfedezett, rejtett képességei forradalmasíthatják a gyógyszergyártást. A Szingapúri Nemzeti Egyetem kutatói rájöttek, hogy a DNS foszfátcsoportjai képesek irányítani kémiai reakciókat, így pontosan a kívánt, tükörképszerű gyógyszermolekula jön létre...

MA 10:15

Az MI engedné használni a márkák védett figuráit – mi sülhet ki ebből?

OpenAI szeptemberben bemutatott MI-videókészítő platformja, a Sora megjelenésekor azonnal botrányt kavart: a felhasználók kedvükre alkottak videókat híres karakterekkel, sokszor egészen formabontó helyzetekben...

MA 10:11

Az amerikai felső paleolitikum titkai, kőeszközök és eredetünk nyomában

A késői pleisztocén időszakban, nagyjából 20 000 és 13 500 évvel ezelőtt, Észak-Amerikában már több olyan régészeti lelőhely ismert, ahol jelentős mennyiségben maradtak fenn kőeszközök...

MA 09:50

Az MI‑lufi kipukkadhat? Michael Burry szerint igen

💥 Az elmúlt hetekben egyre hangosabb vita bontakozott ki az MI‑vel kapcsolatos részvényárfolyamok stabilitásáról, ahogy a piacot egyre inkább MI‑óriások uralják...

MA 09:43

Az MI-láz tovább dübörög, nem érdemes kiszállni

🚀 Az MI-alapú technológiai részvények továbbra is uralják a piacot, és egyelőre nem látszik, hogy gyorsan véget érne a lendület...