Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján


Legfrissebb posztok

Az amazóniai harcsák simán felmásznak a vízeséseken, hihetetlen látvány

MA 15:52

Az amazóniai harcsák simán felmásznak a vízeséseken, hihetetlen látvány

🐟 Nem mindennapi jelenetet figyeltek meg a braziliai Aquidauana folyónál: több ezer méhészharcsa (bumblebee catfish) kapaszkodott fel egy vízesés csúszós szikláin. Ezek az apró, alig 9 centiméteres, narancssárga testű,...

Az ember titkos szenvedélye: a leskelődés ősi gyökerei

MA 15:26

Az ember titkos szenvedélye: a leskelődés ősi gyökerei

👀 Sokan néznek titokban ismerősöket vagy idegeneket a parkban, a metrón vagy akár az Instagramon, mégis kevesen gondolnak bele, miért ennyire lebilincselő mások életét figyelni. Új kutatások rámutatnak: a...

A Cloudflare is megjárta a legújabb MI-vezérelt adatszivárgást

MA 15:01

A Cloudflare is megjárta a legújabb MI-vezérelt adatszivárgást

Az internetes óriás, a Cloudflare is áldozatul esett egy összetett ellátási lánc-támadásnak, amely a Salesloft és a Drift rendszerein keresztül valósult meg. A támadók sikeresen hozzáfértek a vállalat...

Az űrkutatók jogai is a Hold sötét oldalára kerültek

MA 14:51

Az űrkutatók jogai is a Hold sötét oldalára kerültek

Az amerikai kormány egy friss végrehajtási rendelettel elvette a NASA dolgozóitól a szakszervezeti jogokat, miközben költségvetési bizonytalanság és az elbocsátások réme fenyeget. Immár a NASA is felkerült a...

Az Nvidia bevételének majdnem fele két rejtélyes ügyféltől származik

MA 14:26

Az Nvidia bevételének majdnem fele két rejtélyes ügyféltől származik

A világ egyik legnagyobb chipgyártója, az Nvidia idén a második negyedévben 46,7 milliárd dollár (kb. 17 077 milliárd forint) forgalmat ért el – ez 56%-os éves növekedést jelent,...

Az Nvidia H20 tiltása: Kína nem kér az amerikai MI-chipből

MA 14:01

Az Nvidia H20 tiltása: Kína nem kér az amerikai MI-chipből

🔴 Az amerikai kormány ugyan zöld utat adott az Nvidia H20 MI-gyorsítók Kínába történő exportjához, de a kínai hatóságok most kifejezetten arra kérik a helyi cégeket, hogy inkább kevésbé...

A robotautók beszivárognak New Yorkba: a taxisok retteghetnek?

MA 13:51

A robotautók beszivárognak New Yorkba: a taxisok retteghetnek?

🚗 Már hivatalos: a Waymo önvezető autói mostantól tesztelhetők New York utcáin, igaz, egyelőre csak úgy, hogy egy sofőr ül a volán mögött. Eric Adams polgármester bejelentése szerint a...

Az Alibaba új MI-chipje felboríthatja a nyugati fölényt

MA 13:26

Az Alibaba új MI-chipje felboríthatja a nyugati fölényt

Az Alibaba most már saját fejlesztésű MI-gyorsítóval szeretné csökkenteni a függést az Nvidia chipektől, ezzel válaszolva az egyre fokozódó pekingi nyomásra, hogy Kína függetlenedjen a nyugati szilíciumtól. A...

Tud rólunk a világegyetem, így üzenünk az űrbe

MA 12:53

Tud rólunk a világegyetem, így üzenünk az űrbe

Lényeges szempont, hogy a Föld – sokszor tudtán kívül – folyamatosan sugározza létezését az űrbe. Egy friss elemzés szerint az emberi űrkommunikációs jelek, amelyeket elsősorban a Marsra, illetve...