Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

hétfő 21:00

Az Instagram felrobbant: Kylie Jenner ismét bikiniben pózol

A hétfői rosszkedvre itt a tökéletes ellenszer: Kylie Jenner újabb bikinis szelfivel lepte meg követőit, és elképesztően néz ki...

MA 20:49

Az igazságtalan boldogság: miért védi a rendszer a középosztályt?

Az utóbbi években a világ kormányai egyre jobban aggódnak a növekvő egyenlőtlenség, a társadalmi összetartás gyengülése és az intézményekbe vetett bizalom csökkenése miatt...

MA 20:33

Az IKEA új, színes Bluetooth-hangszórói még idén megérkeznek

Az IKEA az év végén dobja piacra legújabb Teklan-kollekcióját, amely a svéd dizájner, Tekla Evelina Severin közreműködésével készült...

MA 20:17

Az AstroLab 37: 44 szintetizátor egyetlen zsebbillentyűzetben

🎵 Az Arturia legújabb fejlesztése, az AstroLab 37, igazi áttörést hoz a színpadi billentyűzetek világában...

MA 20:01

A ROG Ally tovább bírja – játékprofilokkal spórol az akkun

🔋 A ROG Ally kézikonzol mostantól 40 népszerű játékhoz automatikusan alkalmaz játékprofilokat, így minden játékban optimalizálja a képkockaszámot (FPS) és az energiafogyasztást...

MA 19:49

Az IBM átveszi az uralmat az MI-piacon?

🤖 Az IBM továbbra is a legellenállóbb vállalatok közé tartozik a technológiában, különösen a mesterséges intelligencia területén...

MA 19:34

Az életmentő űrakció: a kínai űrhajósok végre hazatérnek

Kína egy váratlan válságot oldott meg azzal, hogy sikeresen elindított egy személyzet nélküli „mentőcsónakot” a Tiangong űrállomáshoz, megmentve a már több mint egy hete hazatérési lehetőség nélkül maradt Sencsou–21 legénységet...

MA 19:02

Az NHL-csapatok értéke szárnyal – mégis alulárazzák őket?

📊 Gary Bettman, az NHL főbiztosa úgy véli, hogy az észak-amerikai jégkorongcsapatok továbbra is alulértékeltek, annak ellenére is, hogy az átlagos csapatérték már elérte a 2,2 milliárd dollárt (kb...

MA 18:49

Az online kódformázók sötét oldala: banki és állami adatok kiszivárogtak

🔒 Felmerül a kérdés, hogy mennyire lehetünk biztonságban, ha egyszerű online eszközöket használunk mindennapi fejlesztői munkához...

MA 18:34

A matematika tényleg kiolvassa az emberek véleményét?

🤔 Miként alakulnak ki, változnak és csapnak át szélsőségekbe az emberek véleményei?..

MA 18:17

Az ördögszarvú méh: meghökkentő felfedezés Ausztráliában

Egy aprócska, ördögi szarvakkal díszített új méhfajt fedeztek fel Nyugat-Ausztrália aranyvidékén...

MA 18:02

Az erdők aranya: 160 gombafaj szedésének mesterfogásai

Jól mutatja ezt, hogy egyre többen fordulnak a gombagyűjtés felé; sokak számára ez a szenvedély a COVID–19-járvány alatt kezdődött...

MA 17:34

Az emberi agy beépített használati utasítással születik?

Az emberi gondolkodás kezdete évezredek óta foglalkoztatja a tudósokat és filozófusokat...

MA 17:17

Az orosz hackerek új fegyvere: a Blender-modellek

Egy Oroszországhoz köthető támadássorozat új módszert vetett be a kiberbűnözés világában: Blender-formátumú 3D-modellekbe ágyazott, kártékony Python-kód segítségével terjesztik a StealC V2 nevű adatlopó kártevőt az online 3D-modellek piacterein, például a CGTraderen...

MA 17:01

Az altcoin ETF-láz berobban: az XRP és a Solana újra csúcson

🔥 A kriptopiac bizonytalansága közepette az USA-ban a spot altcoin ETF-ek, köztük a Solana és az XRP, hétfőn is jelentős tőkebeáramlást könyveltek el, miközben a piac egésze esik, a hangulat pedig feszült...

MA 16:34

Az EP 241021a rejtélye: villámgyors röntgenjel egy haldokló csillagtól?

Egy nemzetközi csillagászcsoport földi és űrtávcsövek segítségével vizsgálta az EP 241021a nevű, gyors röntgentranzienst...

MA 16:17

Az Amazon szuperszámítógépei kihúzzák Washingtont a bajból?

💻 Az Amazon Web Services óriási beruházásba vág: a következő években mintegy 1,3 gigawatt összteljesítményű új adatközpontokat épít kizárólag az amerikai kormány részére, akár 18 ezer milliárd forint (50 milliárd USD) értékben...

MA 16:02

Az ideális útitárs néha bárki – csak nem a család

🚂 Közeledik az ünnepi utazási szezon, és egy friss kutatás szerint a tökéletes útitárs nem feltétlenül a családtag...

MA 15:49

A Huawei Mate 80 Pro Max: vakító fény a zsebedben

💡 A Huawei bemutatta új Mate 80 szériáját Kínában, ahol a Mate 80 Pro Max rendkívül fényes, 6,9 colos, dupla rétegű OLED kijelzője mindenkit lenyűgöz...