Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 08:09

A JWST leleplezte az univerzum titokzatos fekete lyukát

💫 A James Webb űrteleszkóp váratlan felfedezést tett: egy ősi galaxison belül talált egy rejtett szupermasszív fekete lyukat, amely átírhatja mindazt, amit a világegyetem legrejtélyesebb jelenségeiről gondoltunk...

MA 08:02

A békák bélbaktériumai, amelyek leszámolnak a daganatokkal

A japán JAIST kutatói meghökkentő felfedezést tettek: kétéltűek és hüllők bélrendszeréből származó baktériumok, egyetlen adagban beadva, teljesen eltüntetik az egerek vastagbélrákját...

MA 07:57

Az OpenAI megnyitotta a ChatGPT-alkalmazásboltot

💻 Az OpenAI újabb lépést tett afelé, hogy a ChatGPT egy mindenre képes alkalmazássá váljon, amely közvetlenül csatlakozik például az Apple Musichoz vagy a DoorDash-hez...

MA 07:43

A legújabb Cisco-hiba miatt kínai hackerek átvették az irányítást

⚠ A Cisco súlyos biztonsági rést fedezett fel Secure Email Gateway (SEG) és Secure Email and Web Manager (SEWM) eszközeiben, amelyeket jelenleg is kihasználnak ismeretlen támadók...

MA 07:36

Az eltűnt Mars-szonda nyomában: a NASA kétségbeesett mentőakciója

🚨 A NASA hetek óta próbál kapcsolatot teremteni a MAVEN Mars-szondával, amely december elején teljesen elnémult...

MA 07:29

Az első citrom alakú bolygó – és ez még csak a kezdet

🍋 Egyedülálló, citrom alakú exobolygót fedeztek fel csillagászok a James Webb-űrteleszkóppal, amely egy sűrű, gyorsan forgó, halott csillag körül kering...

MA 07:25

Az udvar királya: így teljesített a Gozney Dome pizzakemence

👑 Gigászi méret és luxus dizájn A Gozney Dome (Gen 2) és a még nagyobb Dome XL (Gen 2) minden eddiginél komolyabb, professzionális szintű pizzakemence, amely az udvari kemencék világában igazi státuszszimbólum...

MA 07:15

A nagy e-learning összefogás: a Coursera felvásárolja az Udemyt

🎓 A Coursera és az Udemy jelentős egyesülést jelentett be, amelynek értéke közel 900 milliárd forint, vagyis mintegy 2,5 milliárd dollár...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 12/18

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Smoothie-3D (iPhone/iPad)A Smoothie-3D egy felhasználóbarát alkalmazás, amely lehetővé teszi, hogy egyetlen kép körvonalának megadásával saját, egyedi 3D-modelleket hozzunk létre...

MA 07:08

Az AWS-t titokban kriptobányászatra használják a hackerek

Az Amazon AWS GuardDuty szolgáltatása figyelmeztetett: új, folyamatos kriptobányász-kampány használja ki feltört felhasználói fiókokat az Elastic Compute Cloud (EC2) és az Elastic Container Service (ECS) felhőszervereken...

MA 07:02

A világegyetem új különce: bizarr alakú exobolygót talált a NASA

Űrkutatók egy szokatlan, citrom alakú exobolygót fedeztek fel a NASA James Webb-űrteleszkópjával...

MA 06:57

Az első kínai EUV-gép: nyugati technológia kínai gyártásban?

Kínai kutatók egy Shenzhenben fejlesztett új EUV-litográfiai berendezéssel álltak elő, amely akár alapja lehet a jövő mesterségesintelligencia-rendszereit kiszolgáló chipek gyártásának...

MA 06:51

Az Instacart árait már a hatóságok vizsgálják

Az Instacart, az élelmiszerszállítási piac egyik vezető szereplője, komoly nyomás alá került, miután kiderült: az amerikai Szövetségi Kereskedelmi Bizottság (FTC) vizsgálatot indított a cég MI-alapú árazási rendszerével kapcsolatban...

MA 06:44

Az NVIDIA ConnectX-8 C8240 a hálózati kártyák új királya?

Az NVIDIA ConnectX-8 C8240 kétségkívül a SuperNIC kategóriájába tartozik. Ez a hálózati kártya két QSFP112 porttal, valamint PCIe Gen6-os switch-csel rendelkezik, és akár 800 Gbps kétirányú átviteli sebességre képes egy PCIe Gen5-ös szerverben is...

MA 06:37

Az új Bluesky barátkereső nem bombáz meghívókkal

👥 A Bluesky, amely az X és a Threads riválisaként jelent meg a közösségi médiában, most egy olyan barátkereső funkciót vezet be, amelynek középpontjában a felhasználói adatvédelem áll...

MA 06:30

A Radiant nagy dobása: 300 millió dollár a minireaktorára

🚀 Egyre vadabb pénzeső zúdul a nukleáris technológiára: a Radiant Nuclear most 110 milliárd forintos (kb...

MA 06:23

Az OpenAI képgenerátora bárkiből pillanatok alatt mesterhamisítót csinál

Az OpenAI legújabb fejlesztése, a GPT Image 1.5, forradalmi egyszerűséggel teszi lehetővé a fotók manipulálását...

MA 06:16

Az adatvédelem paródiája: a TikTok a társkereső appokon is kémkedik

🕶 A TikTok nemcsak az appon belüli tevékenységeidet figyeli árgus szemekkel, hanem egyre több olyan weboldalhoz és alkalmazáshoz is kapcsolódik, amelyekről a legtöbben nem is gondolnák...

MA 06:09

Az új React2Shell-hiba ajtót nyit a zsarolóvírusoknak

Egy kritikus, React2Shell néven ismert sebezhetőséget (CVE-2025-55182) fedeztek fel a React- és Next...