Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 16:34

A legendás Midas nyomában: az elveszett királysír Törökországban

🪙 Törökország évezredeken átívelő temetkezési halmai mindig tartogattak meglepetéseket, de a nyugat-anatóliai Karaa tumulusz most igazán felkavarta az állóvizet...

MA 16:17

Az új otthoni vércukormérők: megéri váltani?

Érdekes felvetés, hogy már nem kell minden vércukormérésért orvoshoz menni: ma egy megbízható, otthoni vércukormérővel akár naponta is nyomon követheted, hogyan reagál a szervezeted az ételekre és a mozgásra...

MA 16:02

Itt a gluténteszter: a gluténérzékenyek rég várt álma

A gluténérzékenyek számára valódi áttörést jelent a NIMA új generációs kézi gluténérzékelője, amely mostantól rendelhető az interneten...

MA 15:49

Az argentin Patagónia lángtengerben – tombol az erdőtűz

Dél-Argentína egyre súlyosabb erdőtüzekkel küzd: a lángok már több mint 15 000 hektárt pusztítottak el a héten Patagóniában...

MA 15:33

A Microsoft Lens leáll: búcsú a kedvenc PDF-szkennernek

📷 A Microsoft bejelentette, hogy a közkedvelt Lens PDF-szkennelő alkalmazás 2026. február 9-én végleg eltűnik a Google Play Áruházból és az Apple App Store-ból, és ugyanazon a napon a támogatása is megszűnik...

MA 15:19

A legütősebb monitorok csúcsa: ilyen volt a CES 2026

Érdemes áttekinteni, mik a legizgalmasabb újdonságok, amelyeket a Las Vegas-i CES 2026-on mutattak be monitorfronton...

MA 15:02

A jövő pénze? Itt a stabilcoin-fizetések forradalma

A Latin-Amerikában indult VelaFi újabb mérföldkőhöz érkezett: 7,3 milliárd forintnyi (20 millió USD) tőkét gyűjtött be legutóbbi befektetési körében, így összesen már több mint 14,7 milliárd forintot (40 millió USD) sikerült megszereznie...

MA 14:33

Az igazi Wagyu titka: a márványosság genetikai kódja

Ausztrál kutatók minden eddiginél részletesebb szarvasmarha-genomot állítottak össze, amely a Wagyu húsmárványozottságának genetikai hátterét tárja fel...

MA 14:18

Az új anakondát Will Smith fedezte fel

🐍 A 2024-es év nagy meglepetést hozott a tudósoknak: egy eddig ismeretlen óriás anakondát fedeztek fel Dél-Amerikában...

MA 14:02

A nagy amerikai bankok leszámolnak a kriptójutalmakkal

Az amerikai Szenátus előtt álló kriptotörvény kapcsán újabb konfliktus bontakozott ki: a Coinbase látványosan tiltakozik a bankok törekvése ellen, mert megpróbálják kizárólag maguknak lefoglalni a stabilcoin-megtakarítások utáni jutalmak kifizetését...

MA 13:50

Az űr új rejtélye: titokzatos lökéshullám egy halott csillagnál

🛰 Egy halott csillag, az RXJ0528+2838 körül felfedezett különleges lökéshullám alaposan zavarba hozta a csillagászokat...

MA 13:33

Az új Division 3 lehet az év legnagyobb dobása

A Division-sorozat rajongói izgatottan várják, min dolgoznak a Massive Entertainment fejlesztői a Division 3-mal...

MA 13:17

A OnePlus tényleg kukázza a két legjobban várt mobilját?

😱 A OnePlus 2026-ra tervezett két kiemelt készülékét, a OnePlus Open 2-t és a OnePlus 15s-t is törölhette a cég, legalábbis egy megbízható forrás szerint...

MA 12:49

Az Aadhaar-kártya is hamarosan bekerülhet a Google Walletbe Indiában

💳 A Google Wallet hamarosan támogathatja az indiai Aadhaar-kártyát, amire régóta várnak a felhasználók...

MA 12:33

Az autofókuszos szemüveg megváltoztatja, ahogy a világot látjuk

A finn IXI nevű startup több mint 14,5 milliárd forintot gyűjtött be, hogy olyan okosszemüveget fejlesszen, amely automatikusan, a viselő tekintetét követve állítja a fókuszt...

MA 12:18

Az éhező galaxis: a fekete lyuk lassú gyilkossága

🪴 Az Univerzum egyik legrégibb, már kihalt galaxisát fedezték fel, ahol egy növekvő szupermasszív fekete lyuk lassan, de biztosan megfosztotta otthonát az életet adó üzemanyagtól...

MA 12:03

A vazelin tényleg csodát tesz az arcbőrrel?

Ahogy beköszönt a hideg, száraz tél, egyre többen keresik az olcsó megoldásokat a kiszáradó bőr ellen...

MA 11:49

A Google Fotókba végre megérkezik a rég várt újdonság

A Google Photos hamarosan olyan frissítést kaphat, amelyet a felhasználók régóta várnak: végre beállíthatóvá válik a videók lejátszási sebessége...

MA 11:34

Az MI bekebelezi a zenét: lenyeljük ezt is?

A francia zenei streaming szolgáltató, a Deezer platformjára naponta körülbelül 50 ezer, teljes egészében MI által generált dal kerül fel...