Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

hétfő 20:50

Az MI váratlan szövetséges az igazságosabb munkahelyekért

Bár az MI körül nagy a lelkesedés, sokan még mindig szkeptikusak maradnak két fő ok miatt: az automatizálás elveszi a munkát, vagy épp felerősíti az emberek előítéleteit...

hétfő 20:34

Az Amazon-alapító: Nem ciki, ha a munka az első

💼 Jeff Bezos nemcsak a világ leggazdagabb emberei közé tartozik, hanem amellett is kiáll, hogy a sikerhez nem elég fiatalon vállalkozást indítani – tudás és tapasztalat nélkül több a bukás, mint a jó ötlet...

hétfő 20:17

Az Endesa ügyfeleinek adatai a hackerek prédájává váltak

Spanyolország legnagyobb energiaszolgáltatója, az Endesa, valamint leányvállalata, az Energía XXI most jelentették be, hogy hackertámadás érte informatikai rendszereiket – az elkövetők személyes és szerződéses ügyféladatokhoz jutottak hozzá...

hétfő 20:01

Az indiai kormány újra drákói korlátozásokat tervez az okostelefonokra

📱 India szigorú, okostelefonokra vonatkozó biztonsági szabályokat tervez, amelyek köteleznék a gyártókat, hogy a sebezhetőségek elemzése érdekében hozzáférést biztosítsanak forráskódjukhoz a kormány számára...

hétfő 19:49

Az Apple átvette a trónt: a legnagyobb mobilgyártó a világon

2025 végére az Apple megelőzte a Samsungot, és a világ legnagyobb okostelefon-gyártójává vált az eladott készülékek száma alapján...

hétfő 19:33

Az Apple Sirije új agyat kap: jön a Google Gemini

💡 Az Apple és a Google hivatalosan bejelentették, hogy a következő Siri-verzió már a Gemini MI-t és a Google Cloudot fogja használni...

hétfő 19:18

Az új kristály átírja a mágnesességet: forradalom az adattárolásban?

📸 A Florida State University kutatói olyan kristályos anyagot alkottak, amely eddig nem látott, bonyolult mágneses viselkedést mutat...

hétfő 19:01

Az elfeledett gombatörténelem: a csiperkegomba születésének titka

🍄 A csiperkegomba (Agaricus bisporus) világviszonylatban az egyik legkedveltebb és legtöbbet termesztett ehető gombaféle, mégis mostanáig keveset tudtunk arról, hogyan vált ilyenné...

hétfő 18:49

A Roblox új szabálya megtiltja a gyerek–felnőtt csevegést

🔒 A Roblox az Egyesült Államokban új, kötelező biztonsági rendszert vezetett be, hogy megakadályozza a gyerekek és felnőttek közötti kommunikációt a platformján...

hétfő 18:33

Az Apple Siri mostantól a Google Gemini erejét használja

Az Apple és a Google többéves együttműködést kötött, amelynek részeként az Apple következő generációs MI-modelljei a Google Gemini technológiájára és felhőszolgáltatásaira fognak épülni...

hétfő 18:02

Az amerikai szankciók befagyasztották a 66 milliárd forintnyi USDT-t

🔒 Tether eddig példátlan összeget, több mint 182 millió dollárnyi (kb. 66 milliárd forint) USDT-t fagyasztott be öt Tron-blokkláncú tárcában, miután igazodott az amerikai pénzügyminisztérium szankciós előírásaihoz...

hétfő 17:50

Az Instagram jelszókáosza és a Veeam súlyos sebezhetőségei

🔒 Ez a jelenség jól illusztrálható azzal, hogy napjaink egyik legnépszerűbb közösségi oldalán, az Instagramon érzékeny felhasználói adatok tömege válhat veszélyeztetetté néhány programhiba miatt...

hétfő 17:33

Az egészségügy forradalmát hozza el Claude, berobban az MI

💉 Az Anthropic elhozta Claude-ot az egészségügybe, ezzel felveszi a versenyt az OpenAI ChatGPT-jével...

hétfő 17:20

Az arany újra tarol, a Bitcoin elbukik a menedék próbáján

Különösen igaz ez akkor, ha a gazdasági és politikai feszültségek elérik a csúcspontot: a hagyományos menedékeszközök, mint az arany vagy az államkötvények még mindig legyőzik a Bitcoint...

hétfő 17:02

Az akváriumok vége? Florida betiltaná a védett tengeri fajok befogását

Tavaly nyáron Floridát bejárta egy felháborodást keltő videó, amelyen férfiak Panama City partjainál egy óriás ördögráját fogtak be – egy szövetségi szinten veszélyeztetett fajt – majd a hajójukra emelték...

hétfő 16:49

Az MI-tanácsokkal életeket sodort veszélybe a Google

⚠️ A Google nemrég csendben eltávolította az MI Overviews nevű funkcióját bizonyos májvizsgálatokkal kapcsolatos kereséseknél, miután kiderült, hogy a rendszer veszélyes, félrevezető egészségügyi tanácsokat adott...

hétfő 16:34

A legendás Midas nyomában: az elveszett királysír Törökországban

🪙 Törökország évezredeken átívelő temetkezési halmai mindig tartogattak meglepetéseket, de a nyugat-anatóliai Karaa tumulusz most igazán felkavarta az állóvizet...

hétfő 16:17

Az új otthoni vércukormérők: megéri váltani?

Érdekes felvetés, hogy már nem kell minden vércukormérésért orvoshoz menni: ma egy megbízható, otthoni vércukormérővel akár naponta is nyomon követheted, hogyan reagál a szervezeted az ételekre és a mozgásra...

hétfő 16:02

Itt a gluténteszter: a gluténérzékenyek rég várt álma

A gluténérzékenyek számára valódi áttörést jelent a NIMA új generációs kézi gluténérzékelője, amely mostantól rendelhető az interneten...