Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 13:50

A Google Maps hangos navigációja: tényleg megbízható, vagy csak idegesítő?

Érdemes belátni, hogy manapság mennyire számítunk a navigációs alkalmazásokra, különösen autózás közben...

MA 13:34

Az örök Finke-folyó: 400 millió éve dacol az idővel

💧 Érdemes megérteni, hogy a folyók sem örökéletűek: életciklusuk van, akárcsak a hegyeknek vagy más természeti képződményeknek...

MA 13:03

Az új MI-alapú közösségi app rendet tesz, vagy káoszt szül?

Egyre többen érzik úgy, hogy a mai közösségi oldalak inkább rombolják, mint építik a társas kapcsolatokat: a tartalmat algoritmusok uralják, ismeretlen emberek videói lepik el a hírfolyamot, személyesség és jelentés helyett csak lájkvadász, időrabló zaj marad...

MA 12:49

A Tennessee-i hatóságok keményen fellépnek az illegális sportfogadás ellen

Tennessee állam hatóságai felszólították a Kalshit, a Polymarketet és a Crypto...

MA 12:17

Az óriási kozmikus szendvics: így születnek a bolygók a Hubble szerint

🥪 Egy különös, szendvicsre emlékeztető objektum minden korábbinál izgalmasabb bepillantást nyújt abba, hogyan formálódnak a bolygók...

MA 11:49

Az űr tovább telik: újabb Starlink-műholdak lepik el az eget

🛰 A SpaceX zöld utat kapott az amerikai hírközlési hatóságtól, hogy további 7 500 Starlink Gen 2 műholdat indíthasson, így összesen már 15 000 ilyen eszközt küldhet fel az űrbe...

MA 11:33

Az aranybogyó új korszaka: CRISPR teremti a szupergyümölcsöt

Az aranybogyó, vagy más néven goldenberry, régóta csábítja a fogyasztókat különleges ízével és magas tápértékével, de eddig igazi rémálom volt nagyüzemi méretekben termeszteni...

MA 11:03

A jó szellőzés tényleg megállítja az influenzát?

😷 Érdekes megfigyelés: amikor influenzás betegeket egészségesekkel zártak össze egy szobába, senki sem betegedett meg...

MA 10:57

Az X algoritmusa hamarosan mindenki kezébe kerül

🚀 Elon Musk bejelentette, hogy az X (korábban Twitter) új ajánlórendszerének algoritmusa – beleértve minden kódot, amely meghatározza, hogy mely organikus és hirdetési bejegyzéseket javasolja a platform a felhasználóknak – bárki számára elérhetővé válik a jövő héten...

MA 10:50

A rossz hír: az új Switchen egyelőre nincs Baldur’s Gate 3

A Baldur’s Gate 3 megjelenésére váró Switch 2-tulajdonosoknak rossz hír, hogy a játék egyelőre biztosan nem érkezik a Nintendo áruházába...

MA 10:30

Az új Marinamantra Flow: az asztal, amellyel a padlón is dolgozhatsz

💼 Felmerül a kérdés, miért választanánk egy olyan elektromos állóasztalt, amely nemcsak álló vagy ülő pozícióban használható, hanem akár törökülésben, a földön is...

MA 10:23

Az elhanyagolt rendszerek okozzák a következő nagy adatlopást?

Érdemes megérteni, hogy a digitális infrastruktúra elleni támadások minden ágazatban komoly aggodalmat keltenek...

MA 10:16

A nap, amikor elnémultak az óceánok – az állatvilág újraindul

🌊 Körülbelül 445 millió évvel ezelőtt a Földet átformáló katasztrófa érte: a Gondwana szuperkontinensen hatalmas gleccserek jelentek meg, amelyek gyorsan lekötötték a vizet, a sekély tengerek eltűntek, és drasztikusan megváltozott az óceánok összetétele...

MA 10:08

Agyturbó: bevált trükkök, hogy gyorsabban tanulj, jobban emlékezz

Az agyunk csodákra képes, ha okosan tanulunk. A tanulás nemcsak memorizálás: rengeteget segít, ha kipróbált, neurológiai alapú trükkökkel támogatjuk képességeink fejlődését...

MA 10:02

Megnyitja Musk az X algoritmusát – vagy csak ígéri?

🔓 Elon Musk ismét nagy bejelentést tett: egy héten belül nyilvánossá teszi az X új algoritmusát, vagyis bárki betekinthet majd abba, hogy mi alapján dönt a platform arról, mi jelenjen meg a felhasználók hírfolyamában...

MA 09:57

A Black Axe spanyol kibercsapatára lesújtott az igazságszolgáltatás

A spanyol rendőrség 34 embert tartóztatott le, akik egy, a Black Axe nevű hírhedt bűnszervezethez köthető kiberbűnözői hálózat tagjai lehetnek...

MA 09:44

Az Ikko MindOne: a legbizarrabb androidos telefon, amit valaha láttam

Idén a Las Vegas-i CES kiállításon rengeteg figyelem irányult a Clicks Communicatorra, köszönhetően az újraértelmezett fizikai billentyűzetnek és a szóközbillentyűbe rejtett ujjlenyomat-olvasónak...

MA 09:37

A titokzatos féreg, amely átírja a Nagy Sós-tó történetét

🦎 Érdemes megérteni, milyen jelentős felfedezésről van szó: a Nagy Sós-tóban olyan élőlényt találtak amerikai kutatók, amelyet korábban sehol a világon nem láttak...

MA 09:29

Az űr sűrűsödik: zöld utat kapott 7 500 új Starlink-műhold

🚀 Az amerikai hírközlési hatóság, az FCC újabb jelentős engedélyt adott a SpaceX-nek, így a cég további 7 500 Starlink-műholdat bocsáthat fel...