Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

APP
MA 07:12

APPok, Amik Ingyenesek MA, 11/14

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     伙力火车票 (iPhone/iPad)A 高铁管家 egy népszerű kínai utazási alkalmazás, amely összehangolja a különféle közlekedési lehetőségeket, így például a vonatokat, repülőket, taxikat és buszokat...

csütörtök 21:10

A botrányos bemutató: részegen debütált az orosz robot

🤖 Oroszország első autonóm humanoid robotja, az AIDOL alig néhány másodperccel a nyilvános bemutatkozása után elvesztette az egyensúlyát, és elterült a színpadon...

csütörtök 21:09

Lehullt a lepel a marsi fekete csíkok titkáról

Felmerül a kérdés, hogy miért tarkítja a Mars felszínét több mint 1,6 millió titokzatos fekete csík, amelyek már az 1970-es évek óta foglalkoztatják a kutatókat...

csütörtök 20:08

Az invazív hangyák kifosztják, éheztetik a poszméhkolóniákat

🐜 A poszméhek életét egyre több tényező nehezíti: a természetes élőhelyek pusztulása, a vegyszerek és a betegségek mellett most az invazív argentin hangyák is komoly veszélyt jelentenek...

csütörtök 19:09

Az új Google‑vásárlás: beszélgetsz, fizetsz, a többit az MI intézi

Érdemes megérteni, hogy a Google jelentősen átalakítja az online vásárlást: az új MI-mód lehetővé teszi, hogy beszélgetés formájában vásárolhass, miközben a Google saját bevételi forrásait is bővíti...

csütörtök 17:18

Az Android szabadsága él: továbbra is jöhetnek a külső appok

A Google enyhít a fejlesztői azonosítás szigorításán, így a tapasztaltabb felhasználók továbbra is telepíthetnek olyan Android-alkalmazásokat, amelyek nem a hivatalos Play Áruházból származnak, és ismeretlen fejlesztőktől érkeznek...

csütörtök 17:02

Az emberi agy lehet a kulcs az igazi MI-hez?

A MI területén új korszak küszöbén állunk: a Dragon Hatchling névre keresztelt friss architektúra az emberi agy működését utánozva próbálja áthidalni a mostani rendszerek és a valóban emberhez hasonló gondolkodás között tátongó szakadékot...

csütörtök 16:49

Az okoseszköz, amellyel otthon szinte szakorvos lehetsz

🔬 A Withings új, BeamO nevű többfunkciós orvosi eszköze megszerezte az amerikai hatósági engedélyt, mostantól bárki számára elérhető 92 ezer forintos áron...

csütörtök 16:34

A kibercsalók nagy lebuktatása: több mint ezer szervert kapcsoltak le

🔑 Az európai és amerikai rendőrség összehangolt akcióban számolta fel a Rhadamanthys adatlopó, a VenomRAT és az Elysium botnet mögött álló infrastruktúrát...

csütörtök 16:17

Az újabb tűzfalhiba miatt egyre nagyobb a pánik Amerikában

🔥 Az Egyesült Államok kiberbiztonsági hatósága, a CISA arra figyelmeztet, hogy a WatchGuard Firebox tűzfalak kritikus sérülékenysége miatt számos intézmény és cég kerülhet veszélybe...

csütörtök 16:02

A tesztoszteron elárulja: mit üzen izzadságszagunk a társadalmi rangról?

💪 Az emberek nap mint nap, szinte észrevétlenül próbálják megmutatni társadalmi helyzetüket, akár dominanciával, akár presztízzsel...

csütörtök 15:33

Betörési rések a Ciscónál: veszélyben az amerikai kormányhálózatok

Az amerikai kormányzati szervek komoly figyelmeztetést kaptak: azonnal frissíteniük kell a Cisco Adaptive Security Appliances (ASA) és Firepower-eszközeiket két, aktívan kihasznált sebezhetőség miatt...

csütörtök 15:18

Az arizonai Willcox-medence süllyed: az aszály pokla képekben

💧 Arizona egyes részei drámai gyorsasággal süllyednek: a Willcox-medencében évente több mint 15 cm-t süllyed a talaj, helyenként négy év alatt akár egy métert is veszített a felszín...

csütörtök 15:02

Az űrszemét foglyai: hazatérnek a kínai űrhajósok

🚀 Három kínai űrhajós, Wang Jie, Chen Zhongrui és Chen Dong, még mindig a Tiangong űrállomáson rekedt, miután egy eltévedt űrszemétdarab múlt héten megsértette a visszatérésre szánt kapszulájukat...

csütörtök 14:49

Az új DJI Neo 2 mindenhol kapható – csak Amerikában nem

🌎 A DJI új szelfidrónja, a Neo 2 világszerte elérhetővé vált: Kína után Japánban, Kanadában, az Egyesült Királyságban és számos európai országban is – egyedül az Egyesült Államok marad ki a sorból...

csütörtök 14:33

Az MI turbóra kapcsolta a Tencent bevételeit

A kínai techóriás Tencent 192,9 milliárd jüanos (kb. 7 540 milliárd forintos) bevétellel zárta a 2025-ös év harmadik negyedévét, ami 15 százalékos éves növekedésnek felel meg...

csütörtök 14:18

Az új Horizon MMO közeleg – acélhatárok mindent elárasztanak

Sony és a koreai NCSoft közösen dolgozik a Horizon: Acélhatárok (Horizon Steel Frontiers) nevű új MMO-n, amit kifejezetten mobilra terveznek, de PC-re, iOS-re és Androidra is megjelenik...

csütörtök 14:03

A nagy áttörés: megfejtettük a szappanhártyák különös titkait

Az egyszerű kísérlettől a matematikai rejtélyekig Joseph Plateau belga fizikus már gyermekkora óta lelkesedett a kísérletekért, de a legismertebb kutatása az 1800-as évek közepén született: drótkereteket merített szappanos vízbe, majd figyelte, milyen hártyák feszülnek ki közöttük...

csütörtök 13:50

Az új GPT-5.1: barátságosabb, szókimondóbb és sokarcúbb

💬 Az OpenAI jelentős frissítést dobott piacra a GPT-5.1 verzióval, amely mostantól még közvetlenebb, beszédesebb és merészebb, ha olyan kényes témákról van szó, mint a szexualitás, az erőszak vagy a mentális egészség...