Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 15:02

Az üzleti utazók repítik a Deltát rekordévre

A Delta Air Lines ismét rekordközeli eredményeket vár, főként a prémium kategóriában tapasztalható ugrásszerű keresletnek köszönhetően...

MA 14:49

Az első lépés: a repülőkről sugárzott vezeték nélküli energia

Egy amerikai startup, az Overview Energy mérnökei először sugároztak sikeresen energiát egy mozgó repülőgépről a földre...

MA 14:33

Az új Slackbot: MI-szuperügynök a munkahelyeden

A Slackbot teljesen új időszámításba lépett: mostantól nemcsak automatizált asszisztensként segít, hanem teljes értékű MI-ügynökké vált...

MA 14:18

Az ivóvíz láthatatlan mikrohabjai észrevétlenül szennyeznek minket

Nap mint nap szinte észrevétlenül szennyezzük magunkat mikro- és nanoműanyagokkal, amikor például csapvizet öntünk egy műanyag pohárba...

MA 14:02

A projektor távirányítója még a Google-t is veri

Az utóbbi években a Google letisztult, minimalista formában dobta piacra a Chromecast és a Google TV Streamer távirányítóit...

MA 13:49

Az Office Lensnek vége: búcsúzik a mobilalkalmazás

📷 A Microsoft hamarosan megszünteti az Office Lens alkalmazást iOS-en és Androidon...

MA 13:35

A mesterséges intelligencia mindent eláraszt: a CES legértelmetlenebb újdonságai

Fontos kérdés, hogy tényleg szükségünk van-e annyi mesterséges intelligenciára a mindennapokban, mint amennyit a 2026-os CES-en láthattunk...

MA 13:17

Az első holdhotel: 2029-től te is foglalhatsz szobát

Az űrturisztika új korszakát ígéri a most alapított GRU Space, amely lehetővé teszi, hogy 93 millió forintért (250 000 USD) már előre lefoglalj egy hotelszobát a Holdon...

MA 13:03

A nitrogén felturbózza az erdők növekedését – de mi az ára?

A fiatal trópusi erdők kiemelt szerepet játszanak a klímaváltozás lassításában, hiszen a növekvő fák kivonják a légkörből a szén-dioxidot, amelyet gyökereikben, törzsükben és ágaikban raktároznak akár évszázadokig...

MA 12:49

A világ egyik legaktívabb vulkánja újra lávát ont Hawaiin

Látványos lávaszökőkút szórakoztatta hétfőn a nézelődőket a hawaii Kilauea-vulkánnál, amely ismét megerősítette hírnevét, a világ egyik legaktívabb tűzhányójaként...

MA 12:33

Az első Pokémon LEGO-készletek megérkeztek: indul az előrendelés

A LEGO és a Pokémon összefogott, és megérkeztek az első közös készletek, amelyek mostantól előrendelhetők...

MA 12:18

Az elhibázott frissítés miatt visszahívják az ír útleveleket – jön az utazási káosz?

🛈 Mintegy 13 ezer ír útlevelet hív vissza a Külügyminisztérium egy hibás szoftverfrissítés miatt, amely használhatatlanná tette az okmányokat...

MA 12:01

Az iPhone új őrülete: egy gomb, és kitör a pánik

🚨 Egyre nagyobb népszerűségnek örvend egy különös iOS-alkalmazás, az Élsz még? (Are You Dead?)..

MA 11:49

Az MI és a gazdasági lassulás falnak vezeti az európai cégeket

Az európai munkaerőpiac lendülete megtört, ahogy a gazdasági növekedés lassul, és egyre több vállalat fordul az MI-megoldások felé...

MA 11:18

Megszületik a fapados óriás: az olcsó repülés titkos fegyvere

A Sun Country részvényei szárnyaltak, miután a légitársaság bejelentette, hogy összeolvad a Las Vegas-i székhelyű Allegianttal...

MA 11:02

Az új Gogs-sebezhetőség sarokba szorítja a kormányzati szerveket

Egy komoly sebezhetőséget találtak a Gogs rendszerében, amelyet már több célzott támadásban is kihasználtak...

MA 10:57

Az új kínai app első kérdése: Meghaltál már?

A Sileme nevű kínai alkalmazás, magyarul Meghaltál már? (Are You Dead?)..

MA 10:51

A Tumba Madžari Nagyanya: az ősi házőrző istennő titkai

1981-ben Észak-Macedóniában, Skopje közelében találták meg a Tumba Madžari nevű régészeti lelőhelyen azt a különleges agyagszobrot, amelyet csak Nagyanyaként emlegetnek...

MA 10:44

Így tüntesd el az idegesítő Ask gombot a Google Fotókból

2024-ben a Google bevezette az Ask gombot a Google Photos alkalmazásban, ami lehetővé teszi, hogy természetes nyelvű kérdéseket írjunk be keresés helyett...