2025. 11. 09., 10:36

Az MI titkos szövetségese: a Common Crawl és a fizetős cikkek

Az MI titkos szövetségese: a Common Crawl és a fizetős cikkek
A Common Crawl nevű nonprofit szervezet már több mint tíz éve milliárdnyi weboldalt gyűjt össze, hogy hatalmas internetarchívumot hozzon létre tudományos kutatások számára. Az utóbbi években azonban ez az adatbázis egyre vitatottabb célokat szolgál: olyan MI-fejlesztők, mint az OpenAI, a Google, az Anthropic, az Nvidia, a Meta és az Amazon használják modelljeik betanításához.

Fizetős cikkek titkos hasznosítása

A Common Crawl nemcsak a nyilvános internetet menti le, hanem a nagy hírportálokról származó, fizetőfal mögé rejtett cikkeket is, amelyekhez normális esetben csak előfizetéssel lehet hozzáférni. Ezekhez a tartalmakhoz a webes lementő egy programozási trükk segítségével jut hozzá: letölti a teljes szöveget, mielőtt az oldal ténylegesen lezárná azt az előfizetők számára. Így az MI-fejlesztők ingyen juthatnak hozzá a minőségi újságíráshoz, majd ezeket felhasználva készítenek híreket összegző vagy parafrazáló modelleket, amelyekkel végső soron épp a szerzőktől és kiadóktól vesznek el olvasókat és bevételeket.

Kereken tagadják a vádakat

A Common Crawl hivatalosan azt állítja, hogy csak szabadon elérhető tartalmakat ment le, nem mászik át fizetőfalakon, és készséggel eltávolít bármilyen tartalmat, ha a kiadók ezt kérik tőle. Ugyanakkor a gyakorlatban ez nem igaz: a letöltött fizetős cikkek mind a mai napig megjelennek MI-modellek tanítóanyagában, annak ellenére, hogy több kiadó kifejezetten kérte eltávolításukat.

Etikátlan vagy csak modern?

Az alapítvány vezetője, Rich Skrenta szerint ha valami az interneten van, akkor bárki hozzáférhet – szerinte az MI-modelleknek is joguk van olvasni, mint bárki másnak. Véleményét azzal védte, hogy a kiadók is nyilvánossá tették anyagaikat azon az áron, hogy az MI-robotok is elolvashatják azokat. Eközben a Common Crawl botja, a CCBot ma már a világ első 1000 leglátogatottabb oldalát is rendszeresen feltérképezi, a háttérben pedig tovább pumpálja a minőségi, gyakran fizetős tartalmat az MI-fejlesztőknek. Az MI-modellek elképesztő fejlődése nagyban köszönhető a Common Crawl archívumának – a GPT-3-at például főleg ezekből az adatokból fejlesztették, ami 2022-ben végül a ChatGPT (Csevegő MI) alapját is adta.

2025, adrienne, tech.slashdot.org alapján

Legfrissebb posztok

MA 19:02

Harcosi felszereléssel temettek el angolszász gyerekeket Nagy-Britanniában

Régészek angolszász gyerekeket fedeztek fel, akiket lándzsával, pajzzsal és csatokkal temettek el – olyan felszereléssel, amely általában harcosok sírjaiban található...

MA 18:56

A telefotoextenderek az Android világ legizgalmasabb újítása

📱 Korábban minden kirándulásomra magammal vittem a megbízható Nikon DSLR fényképezőgépemet. Felejthetetlenül szép pillanatokat örökítettem meg a kit objektívvel és a 70-300 mm-es zoomobjektívvel, de mindig sajnáltam, hogy az utóbbi mennyire sok helyet foglal...

MA 18:37

A Samsung rejtett hangfunkciója, aminek minden telefonban ott kellene lennie

A modern Samsung telefonok rengeteg funkcióval vannak tele, több mint bármely más Android márka...

MA 18:18

Az új AirTag megment, ha örökké elveszíted a kulcsod

🔑 Az ADHD-val küzdők álma a második generációs AirTag. A hangosabb sípolás és a megnövelt hatótáv életmentő lehet azoknak, akik soha nem emlékeznek, hová tették a kulcsukat...

MA 17:38

A QNAP TS-h1290FX 25 gigabites szörnyet szabadít el 12 SSD-vel

Tavaly év végén bemutattuk, hogyan építettük stúdiónkat a QNAP TS-h1290FX köré...

MA 16:56

A technológiai óriások idén 217 billió forintot önthetnek mesterséges intelligenciába

🤖 A Google, az Amazon, a Microsoft és a Meta együttesen közel 217 billió forintot (700 milliárd dollárt) szánhat idén mesterségesintelligencia-fejlesztésekre...

MA 16:37

A Super Bowl rejtett veszélye: szívrohamot kaphatunk a kanapén

A nagy sporteseményekhez, mint a Super Bowl, rejtett egészségügyi kockázatok társulnak...

MA 16:21

Ezért törlik tömegesen a fiatalok a közösségi médiát – és mit csinálnak helyette

📱 A 23 éves Matt Richards ügyfélmenedzser tavaly törölte az összes közösségimédia-alkalmazást a telefonjáról, és meglepődött, amikor felfedezte, hogy az élete jobbra fordult...

MA 16:01

Gyógyítja a skizofréniát a ketogén diéta? RFK Jr. meglepő kijelentése hullámokat vert

🧠 Megvizsgálandó, hogy Robert F. Kennedy Jr., az amerikai egészségügyi és humánszolgáltatási miniszter állítása, miszerint a magas zsírtartalmú, alacsony szénhidráttartalmú étrend meggyógyíthat bizonyos pszichiátriai betegségeket, mennyire tartható...

MA 15:57

A szivacs vagy a fésűsmedúza volt az első állat? A vita nem csitul

Csaknem két évtizede dúl a vita a tudósok körében: a szivacsok vagy a fésűsmedúzák jelentették-e az első állati vonalat...

MA 15:01

A térdei árulták el: ennyi volt Lindsey Vonn számára az elit síelés ára

A 41 éves olimpiai aranyérmes síelő, Lindsey Vonn valóságos fiziológiai csoda...

MA 14:56

A napelem- és szélenergia-forradalom, amit már semmi sem állíthat meg

⚡ 2025-ben a napelem és a szélenergia először múlta felül a szenet mint globális energiaforrást...

MA 14:37

A Webb-űrteleszkóp megtalálta a valaha látott legnagyobb sötétanyag-struktúrát

A James Webb Űrteleszkóp segítségével a csillagászok feltérképezték az univerzum sötét anyagának eddigi legnagyobb szakaszát, elmélyítve ezzel a titokzatos anyag kozmikus tájat formáló szerepének megértését...

MA 14:19

Miért volt ennyire vacak a PlayStation 3D-s grafikája?

🎮 Bár gyakran egybemossuk a retro játékkonzolokat, az első 3D-s grafikai rendszerek, mint a Nintendo 64 és a Sony PlayStation, vizuálisan markánsan különböztek egymástól...

MA 14:03

A tartalomgyártók új kedvence: DJI Power 1000 V2

A korábban csak drónjairól ismert DJI mára sokkal több lett, mint egy dróngyártó...

MA 13:55

Az ősi ráncos mintázatok felkavarják az élet eredetéről alkotott képet

Lenyűgöző, több mint 180 millió éves ősi nyomokat fedeztek fel Marokkó Közép-Atlasz-hegységében, amelyek új fejezetet nyithatnak az élet eredetének kutatásában...

MA 13:19

A mesterséges intelligenciás hollywoodi filmek egymás után elhasalnak

Az utóbbi években Hollywood mindent feltett az MI-re, de látványosan pórul járt...

MA 13:02

Az a powerbank, amit nem dobsz félre: Sharge 3 az 1-ben teszt

A mindennapok egyre elengedhetetlenebb eszköze az okos, multifunkciós töltő, amely nem csupán energiával lát el, de még jól is néz ki...

MA 12:57

A féktelen MI ára: ügyvédi bakik, bírói ultimátum

Egy New York-i szövetségi bíró példátlan döntést hozott: egy ügyvéd ismételt MI-visszaélése miatt megszüntette a teljes pert...

MA 12:20

Az iPhone Fold közeleg: ezt tudjuk a hajlítható csúcsmobilról

Kérdés, mikor és milyen formában lép be az Apple a hajlítható okostelefonok világába – hiszen míg a Samsung és a Google már évekkel ezelőtt piacra dobták saját hajlítható mobiljaikat, az Apple eddig feltűnően kimaradt ebből a kategóriából...

MA 12:01

A Waymo önvezető taxijai nem állnak meg az iskolabuszok elött

Waymo önvezető taxijai komoly problémákkal küzdenek Austinban, mert rendszeresen nem állnak meg az iskolabuszoknál, amikor éppen gyerekek szállnak le vagy fel...

MA 11:55

Az európai Disney+-ról eltűnt a Dolby Vision

A Disney+ előfizetők több európai országban egy ideje hiába keresik a Dolby Vision HDR-tartalmakat, ezek ugyanis eltűntek a platformról...

MA 11:38

Az új fogyasztószerek minden eddiginél veszélyesebbek

⚠ Egyre erősebb súlycsökkentő gyógyszerek jelennek meg, amelyek a korábbi sikereket messze felülmúlhatják...

MA 11:02

Az OpenAI-nál forr a levegő: káosz, vádak, adatbotrány

Fontos kérdés, hogy miként tudja az OpenAI vezetősége kezelni az egyre erősödő kritikákat, amelyek a vállalat növekedésével párhuzamosan szaporodnak...

MA 10:57

A techóriások dollármilliárdokat öntenek az MI-be

A legnagyobb technológiai cégek, köztük az Amazon, a Microsoft, a Meta és a Google elképesztő összegeket terveznek költeni MI-fejlesztésekre 2026-ban...

MA 10:49

Az új fénykor: áttörést vár a DARPA a fotonikus számítógépektől

💡 A mesterséges intelligencia teljesítményének növelése régóta akadályba ütközik a hagyományos elektronikus áramkörök fizikai korlátai miatt...

MA 10:41

Az év meglepetése: szibériai vándorsólyom Ausztrália szívében

Egy vadbiológus ritka és különleges fotót készített Közép-Ausztráliában, ahol korábban még sosem tűnt fel szibériai vándorsólyom...

MA 10:33

Az új böngészőtámadások korában sötétben tapogatózunk

Az üzleti folyamatok nagy része ma már böngészőben zajlik: SaaS-alkalmazások, belépési rendszerek, adminisztrációs felületek és MI-eszközök mind ezt a felületet teszik elsődlegessé az adatkezelésben és a munkavégzésben...

MA 10:25

Az új szuperkém, a DKnife mindent lát a hálózatodban

🕵 Egy eddig ismeretlen eszközkészletet, a DKnife-ot már 2019 óta használják hackerek arra, hogy hálózati átjárókon (routereken, edge eszközökön) elcsípjék és módosítsák a forgalmat, kémkedjenek, sőt, kártékony programokat juttassanak el a hálózatra csatlakozó eszközökre...