Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 00:01

Az okos varjak, akik megtisztítják a városainkat

🦉 A varjak mindig is különleges madarak voltak. Számtalan történet szól arról, hogy képesek megbarátkozni emberekkel, ajándékokat hoznak, sőt, olykor elveszett tárgyakat is visszaszolgáltatnak gazdáiknak...

Top
hétfő 16:50

Egyetemet végzett milliárdosok – ki mit végzett?

A közvéleményben gyakran keringenek olyan történetek, amelyek a felsőoktatásból kimaradó vállalkozókról szólnak...

szombat 20:34

A leépítések országában: 31 év után újrakezdés 60 évesen

💼 Washington államban Mike Kostersitz 31 évet töltött a Microsoftnál, majd egy hirtelen, egynapos leépítés során – 120 másik munkatárssal együtt – elveszítette állását...

szombat 20:02

Az ősember is csókolózott? Kiderült a csók meglepő eredete

💋 Köztudott, hogy a csók az emberi kapcsolatok szerves része, de vajon mennyire ősiek ezek a romantikus vagy éppen baráti gesztusok?..

szombat 19:49

A szabadgyökök rémtörténete: tényleg akkora a veszély?

⚠ A szabadgyökök rossz hírnévnek örvendenek, hiszen gyakran összefüggésbe hozzák a rákkal, az öregedéssel és olyan degeneratív betegségek kialakulásával, mint az Alzheimer-kór...

szombat 19:34

A pár szál is tönkreteszi a szíved

💔 Már napi néhány elszívott cigaretta is jelentősen megnöveli a szívbetegségek és a korai halál esélyét...

szombat 19:20

Az agyolvasó eszközök a magánélet végét jelentik?

👀 Nancy Smith 2008-ban egy autóbaleset után deréktól lefelé megbénult, ezzel együtt sok mindenről le kellett mondania – például a zongorázás öröméről...

szombat 19:02

Az éghajlati forduló után: merre tart a világ tíz év múltán?

Tíz év telt el azóta, hogy a világ országai elfogadták a párizsi klímaegyezményt, amely ambiciózus célt tűzött ki: megakadályozni, hogy a globális átlaghőmérséklet 2 Celsius-foknál nagyobb mértékben emelkedjen az iparosodás előtti szinthez képest, és lehetőség szerint 1,5 fok alatt tartani azt...

szombat 18:50

Az év választási botránya: eltűnt a titkos kulcs, ugrottak az eredmények

Egy vezető biztonsági szervezet kénytelen volt érvényteleníteni az éves vezetőségi választás eredményeit, miután egy hivatalos személy elveszítette azt a titkos kulcsot, amely elengedhetetlen lett volna a szavazatok visszafejtéséhez...

szombat 18:34

Az enzimek titka: így zajlik valójában a hidrogéntermelés

A hidrogenáz enzimek kulcsszereplők a hidrogéngáz (H2) bontásában és előállításában, így különös érdeklődésre tartanak számot a fenntartható energiaforrásokat kutató tudósok körében...

szombat 18:17

Az X leleplezi, honnan valók a felhasználói

🔍 Az X egy új, „Erről a fiókról” nevű funkciót vezet be, amely részletesebb információkat jelenít meg a felhasználói profilokon...

szombat 17:50

Az új Bose QC Ultra fejhallgató tényleg mindent visz, vagy csak hype?

A Bose második generációs QC Ultra fejhallgatója végre megjelent, és azonnal felmerül a kérdés: vajon méltó kihívója lehet az abszolút kedvenceknek, mint a Sony XM6 vagy az Apple AirPods Max?..

szombat 17:34

A csendben fortyogó vulkánok rejtélye végre megfejtve

🔥 A vulkánok viselkedésének régóta fennálló rejtélyére találtak választ kutatók: a feltörő magma nemcsak a légnyomás csökkenésekor képez gázbuborékokat, hanem pusztán a belső nyíró- és keverőerők hatására is...

szombat 17:02

Az áttörés kulcsa: egyetlen atom indíthatja el a kvantuminternetet

A kvantuminternet megvalósítása évek óta foglalkoztatja a kutatókat, most viszont egy új felfedezés még közelebb viheti ezt a forradalmi technológiát...

szombat 16:34

Az amerikai légiközlekedésben kitört a totális káosz

Az amerikai Közlekedési Minisztérium országos kampányt indított, hogy visszaszorítsa a repülőtereken és járatokon kirobbanó utasbalhékat...

szombat 16:18

Az MI és Taylor Swift uralja a világot: a paraszociális kapcsolatok éve

👑 Első pillantásra úgy tűnhetett, hogy a közösségi média és az MI csevegőbotok csak új szintre emelték a rajongást, de a Cambridge Dictionary szerint mindez már saját szót is kapott: a „parasocial” lett 2025 szava...

szombat 15:50

Az űrbéka, a rovarapokalipszis és a CDC totális káosza

Érdemes áttekinteni, milyen váratlan és olykor ijesztő fejlemények születtek a tudomány világában az elmúlt héten...

szombat 15:33

Az esőerdők a vártnál ellenállóbbak a klímaváltozással szemben

🌳 Egzotikus tealevél-kísérletekkel vizsgálták, hogyan viselik a trópusi esőerdők a klímaváltozás hatásait...

szombat 15:19

A rovarvilág összeomlik – veszélyben az élelmiszerünk?

Képzeld el, hogy nyáron autózol az országúton lehúzott ablakokkal, a szél fújja a hajad, és az élvezetes pillanatokat csak néha-néha zavarja meg egy-egy bogárnyom a szélvédőn...