Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján


Legfrissebb posztok

Az Uber forradalmasítja a vendéglátóipari hiteleket

MA 21:01

Az Uber forradalmasítja a vendéglátóipari hiteleket

Az Uber Eats és a pénzügyi technológiával foglalkozó Pipe új együttműködése teljesen átalakíthatja, hogyan jutnak finanszírozáshoz a kisvendéglők az Egyesült Államokban. A Pipe integrált technológiájának köszönhetően már az...

Az MI-t nem kérjük kínai kézbe

MA 20:51

Az MI-t nem kérjük kínai kézbe

🤚 Az Anthropic szigorítja a MI-szolgáltatásokhoz való hozzáférést azokban a régiókban, ahol jogi, szabályozási vagy biztonsági kockázatok miatt már korábban is tiltott volt a használatuk. Hiába hoznak létre kínai...

Minden másnál fontosabb lett az MI, mi lesz a gázzal, klímával, jövőnkkel

MA 20:26

Minden másnál fontosabb lett az MI, mi lesz a gázzal, klímával, jövőnkkel

Doug Burgum, az Egyesült Államok belügyminisztere – aki szoftverfejlesztőből lett politikus, és korábban a Great Plains nevű könyvelőszoftver-céget adta el a Microsoftnak 1,1 milliárd dollárért, vagyis több mint...


MA 20:01

Az igazi Dyson akció: féláron vihető a robotporszívó

Több eszközre is jelentős kedvezménnyel csaphatsz le a Dyson Labor Day leárazásában, de a 360 Vis Nav robotporszívó most valóban mindenkit lázba hozhat. A szokásos 1 000 USD...

Az új Model Y Performance végre Európába gurul?

MA 19:51

Az új Model Y Performance végre Európába gurul?

🚗 A Tesla várva várt Model Y Performance változata hamarosan bemutatkozhat, legalábbis Európában és a Közel-Keleten. Egy új videóban a cég látványos spoilert mutat a Model Y hátulján, utalva...

A Nap legapróbb kitöréseit már tényleg látjuk?

MA 19:26

A Nap legapróbb kitöréseit már tényleg látjuk?

☀ A hawaii Daniel K. Inouye Nap-távcsőnek köszönhetően soha nem látott részletességgel figyelhetjük meg a Nap viharos kitöréseit. Az új képeken először sikerült ráközelíteni a heves napkitörésekben, az úgynevezett...

Meghökkentő felfedezés, egy fehérje okozhatja a Parkinson-kórt

MA 19:01

Meghökkentő felfedezés, egy fehérje okozhatja a Parkinson-kórt

🤔 A Parkinson-kór sokáig rejtély volt: az apró kézremegés és az enyhe merevség jelzi a kezdődő bajt, amely az idegsejtek pusztulásával egyre súlyosabbá válik. Az Aarhusi Egyetem kutatóinak friss...


MA 18:51

A rejtett rádióktól fél a kormány a napenergiás autópályákon

Amerikai tisztviselők figyelmeztetést adtak ki: külföldön gyártott, napenergiával működő autópálya-infrastruktúrába rejtett, azonosítatlan rádiók kerülhettek. Az USA közlekedési minisztériuma szerint ezek a rejtett rádiók bizonyos inverterekben és akkumulátorkezelő rendszerekben...

A vietnami hitelezők komoly károkat szenvedtek el egy kibertámadás miatt

MA 18:26

A vietnami hitelezők komoly károkat szenvedtek el egy kibertámadás miatt

⚠ Vietnámban a Nemzeti Hitelinformációs Központ (CIC), amely az ország jegybankja alá tartozik, komoly kibertámadás áldozata lett. Az első vizsgálatok szerint a támadók illetéktelenül hozzáfértek érzékeny személyes adatokhoz, ám...