2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 17:56

A Pandora űrtávcső forradalmasítja az élet utáni hajszát az űrben

Első pillantásra úgy tűnt, hogy a James Webb űrtávcső (JWST) már így is lenyűgöző eredményeket ér el a lakható exobolygók utáni kutatásban, de most egy új társ, a Pandora érkezése új lendületet ad ennek a küldetésnek...

MA 17:19

Az elnöki palota hadat üzen a kriptónak? A Coinbase visszavág

💸 A kriptopiacot felbolygatta a hír, hogy a Fehér Ház esetleg elfordulna a kriptovaluta-piac szabályozását célzó törvény támogatásától, ám a Coinbase vezérigazgatója, Brian Armstrong szerint ennek épp az ellenkezője igaz...

MA 17:04

A nagy Android-csúcsverseny: melyik a legjobb választás 2026-ban?

2026-ban az Android-telefonok kínálata erősebb, mint valaha: fejlett kamerák, izmos processzorok, hosszú üzemidő és akár hét évnyi rendszerfrissítés csábítja a felhasználókat...

MA 16:37

A friss kriptók többsége máris bedőlt

Az utóbbi években indított kriptovaluták több mint fele mára gyakorlatilag megszűnt, derül ki a CoinGecko friss elemzéséből...

MA 16:20

Az első lakás: ugródeszka a vagyonhoz, vagy drága zsákutca?

A lakásvásárlás hosszú évek óta az amerikai álom fontos része, de ma már egyre több fiatal számára szinte elérhetetlen...

MA 15:55

Az egész világháló leállhat egyszerre?

Senki sem várta volna, hogy az internet nélkülözhetetlenné válik a mindennapokban, legyen szó munkáról, szórakozásról vagy kommunikációról...

MA 15:38

Az utca hősei: a városok titkos fegyverei a fenntarthatóságért

🛠 A világ 330 városa nemrég közös fogadalmat tett a fenntarthatóbb és igazságosabb városi élelmiszerrendszerek kialakítására...

MA 15:21

Az okostelefonos MI-chipek: nyolc évünk volt, mégis toporgunk

📱 Az elmúlt nyolc évben gyökeresen megváltozott az okostelefonok belső világa: megjelentek a dedikált MI-chipek, a Neural Processing Unitok (NPU-k)...

MA 15:02

Az új GhostPoster-átverés már 840 ezer böngészőt fertőzött meg

Ismét 17 kártékony böngészőbővítmény bukkant fel a Chrome, Firefox és Edge áruházakban, köztük olyan népszerű kiegészítőkkel, mint a Google Translate, a YouTube Download vagy az Adblock Ultimate...

MA 14:56

Az új Galaxy Z TriFold: telefonhoz óriás, tablethez törpe

A hajlítható kijelzős telefonokban gyerekkori izgatottságomat érzem visszaköszönni. A közel egy évtizeddel ezelőtt bemutatott első Galaxy Foldnál lenyűgözött, hogy egy táblagép méretű kijelző elfért a zsebemben...

MA 14:37

Az első 32 TB-os HDD-k megérkeztek: a Seagate ismét nagyot lép

💻 A Seagate bejelentette, hogy megkezdte a 32TB kapacitású merevlemezek szállítását, melyek a vállalat új generációs, hőasszisztált mágneses rögzítési (HAMR) technológiájára épülnek...

MA 14:19

Az emberiség visszatér a Holdra: itt a NASA új óriásrakétája

A NASA történelmi pillanatra készül: 1972 óta először indíthat újra űrhajósokat a Holdhoz...

MA 14:01

A lángoló Amerika tanulságai, amelyeket mindenkinek tudnia kell

🔥 Egy évvel a pusztító Los Angeles-i erdőtüzek után nehéz elfelejteni, milyen gyorsan és könyörtelenül csapott le a tűz a városra...

MA 13:55

A rajongók kezébe kerül az Ed Sheeran-turné setlistje

Ed Sheeran teljesen új élményt kínál ausztráliai és új-zélandi koncertjein: a rajongók maguk dönthetik el, mely dalok csendülnek fel az est során...

MA 13:38

Az álmatlanság elleni titkos fegyver: három jógapóz lefekvés előtt

Lényeges, hogy az alvásproblémák rengeteg ember életét keserítik meg, és gyakran sem a gyógynövények, sem az altatók nem hoznak valódi megoldást...

MA 13:20

Az igazi biztonság ott kezdődik, amikor te töröd fel a saját rendszered

🔒 A modern digitális korban a biztonság nem arról szól, hogy valamit örökre sebezhetetlenné teszünk, hanem arról, hogy pontosan megértsük, miként lehet mégis áttörni a védelmet...

MA 13:03

A tökéletes timelapse-kamera: a Tikee 4 mindent visz

📸 Fontos kérdés, hogy létezik-e tökéletes timelapse kamera, amely nemcsak rövid, de akár több hónapos vagy éves projekteknél is megbízhatóan működik, ráadásul még távoli helyszíneken is...

MA 12:55

Az univerzum eltűnt csillagai egy lélegzetelállító fotón

A James Webb űrteleszkóp új, lélegzetelállító fotóján por- és gázfelhők narancsos és barna árnyalatai között szikrázó csillaghalmaz ragyog...

MA 12:37

A világ leggyorsabb drónja 657 km/órával döntött rekordot

🚀 Az elmúlt években egy baráti, de annál intenzívebb verseny folyt a drónsebesség-világcsúcsért...