Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

vasárnap 00:01

Az okos varjak, akik megtisztítják a városainkat

🦉 A varjak mindig is különleges madarak voltak. Számtalan történet szól arról, hogy képesek megbarátkozni emberekkel, ajándékokat hoznak, sőt, olykor elveszett tárgyakat is visszaszolgáltatnak gazdáiknak...

Top
hétfő 16:50

Egyetemet végzett milliárdosok – ki mit végzett?

A közvéleményben gyakran keringenek olyan történetek, amelyek a felsőoktatásból kimaradó vállalkozókról szólnak...

MA 19:19

A mesterséges intelligencia új királya: a Gemini 3 diadalmenete

Érdekes felvetés, hogy a Google legújabb MI-modellje, a Gemini 3 alaposan felkavarta az iparágat...

MA 19:01

Az MI-láz csúcsra járatja a memóriaválságot, a Lenovo készletez

A Lenovo, a világ legnagyobb PC-gyártója rekordmennyiségű memóriát és kulcsfontosságú alkatrészeket halmoz fel, hogy kivédje az MI-robbanás okozta ellátási gondokat...

MA 18:49

Az amerikai bankóriásokat újabb, összehangolt kibertámadás érte

💰 November közepén súlyos kibertámadás érte a New York-i SitusAMC nevű pénzügyi technológiai céget, amely több mint ezer banknak, jelzálogcégnek és ingatlanpiaci szereplőnek nyújt szolgáltatásokat...

MA 18:20

Az űrverseny új terepe: a Rocket Lab rákapcsol

🚀 A Rocket Lab idén történelmet írt, amikor 17 sikeres Electron-indítást teljesített, és ezzel új rekordot állított fel...

MA 17:50

Az új COVID-vakcinatechnológia áttörést hozhat a kígyómérgezés kezelésében

Az mRNS-alapú vakcinák, amelyek a COVID–19 elleni harc kulcsszereplői voltak, most reményt hozhatnak a kígyómarások áldozatainak is...

MA 17:01

A Mars új manővere végképp szertefoszlatja a marsi tó álmát

2018-ban a kutatók szenzációs hírt közöltek: a Mars felszíne alatt folyékony vízre utaló jeleket találtak a Mars Advanced Radar for Subsurface and Ionosphere Sounding (MARSIS) műszerrel...

MA 16:50

Az arany nyakék: a trón erejének jelképe

💍 Ez a hatodik századi arany pektorálé (mellékékszer) a bizánci ékszerkészítés egyik kivételes alkotása...

MA 16:33

Az MIT-botrány: kiderült, kamu volt a nagy MI-tanulmány

Májusban az MIT vezetősége bizalmatlanságot szavazott meg egy tudományos előpublikációval szemben, amely azt állította, hogy egy MI-alapú anyagtudományi felfedezőeszköz 1 018 amerikai kutatónak segített áttörő eredményekhez jutni...

MA 16:18

Az MI tényleg képes fénysebességgel gondolkodni?

⚡ A mesterséges intelligencia fejlődése régóta küzd egy alapvető akadállyal: a számítási sebesség és az energiafogyasztás együttes korlátaival...

MA 15:49

Az amerikai DJI-drónoknak tényleg befellegzett?

December 23-ig döntés születik a DJI sorsáról az Egyesült Államokban: ha a kínai vállalatot felveszik a Szövetségi Kommunikációs Bizottság (FCC) úgynevezett tiltólistájára, többé nem hozhatna forgalomba új termékeket az USA-ban...

MA 15:34

Az iPad végre ablakos – de tényleg kézre áll?

💻 Az iPadOS 26 az iPad egyik legnagyobb frissítése, amióta 2010-ben bemutatták az első modellt...

MA 15:17

A CERN új MI-szabályai: így használhatod a mesterséges intelligenciát

A svájci CERN-ben a mesterséges intelligencia ma már mindenütt jelen van: bekerült az eszközökbe, a szoftverekbe, a felhőszolgáltatásokba, de a dolgozók is bevihetik, vagy akár saját maguk is fejleszthetnek MI-megoldásokat...

MA 14:49

A Windows 11 fájlkezelője végre villámgyors és átlátható lesz

⚡ A Microsoft új változtatásokat vezet be a Windows 11 Fájlkezelőjében, hogy gyorsabban induljon, különösen gyengébb hardveren, például tableteken vagy kézi számítógépeken...

MA 14:36

A mesterséges tartalom viharában: videósok harca az MI-vel

📹 Fontos kérdés, hogy az MI-videók rohamos fejlődése miként alakítja át a filmes ipart, és milyen gazdasági, etikai, valamint művészi feszültségeket szül a szakmán belül...

MA 14:17

Az olcsóbb OnePlus 15R és az új kütyük rajtja csúszik

🕒 Az OnePlus idén bemutatta a nagy akkumulátorral felszerelt OnePlus 15-öt, ám az olcsóbb OnePlus 15R bemutatása elmaradt...

MA 14:02

Az elveszett Darwin-címjegyzék nyomában: feltárulnak a titkok

A National University of Singapore (NUS) munkatársai egyedülálló dokumentumot tettek közzé: Charles Darwin eddig ismeretlen címjegyzékének teljes szövegét és átiratát...

MA 13:49

Az olcsó MI-oktatás felbőszítette a brit egyetemistákat

Negyvenegy diák, köztük James és Owen, a University of Staffordshire programozási kurzusán vett részt, abban bízva, hogy egy államilag támogatott programnak köszönhetően kiberbiztonsági szakember vagy szoftvermérnök lehet belőlük...