Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 14:20

Az elbukott Roomba: így úszott el az otthoni robot jövője

Amikor 2005-ben először vittem haza a saját Roombámat, egy lépéssel közelebb éreztem magam A Jetson család álomvilágához – ahhoz, hogy egy robot takarítson helyettem...

MA 14:03

Az RC4 bukása: a Microsoft száműzi a veszélyes titkosítást

Több mint negyedszázadon át volt része a Windows-rendszereknek egy olyan titkosítási algoritmus, amelyet a hackerek aranybányának tekintettek...

MA 13:50

Az új Kim Kardashian-skin tarol a Fortnite-ban

A Fortnite történetében már megszokottak a sztárkollaborációk, de Kim Kardashian színre lépése egészen új szintet jelent...

MA 13:34

Az orosz GRU éveken át csapott le a kritikus infrastruktúrára

A fejlett orosz kibertámadások évek óta komoly veszélyt jelentenek a nyugati energia-, távközlési és technológiai szektorra...

MA 13:03

Az MI-től tényleg emberibbé válnak a főnökök?

📈 Fontos kérdés, hogy mit jelent az, ha a vállalatok a döntéshozatali folyamatokban mind nagyobb teret adnak az MI-nek, amely eddig inkább csak végrehajtó feladatokat látott el...

MA 12:49

A Ford a szerverparkokban újít: autóakkukból energiabank

🚗 A Ford stratégiát vált, és hatalmas akkumulátorokat kezd gyártani, kihasználva a globális adatközpont-építési hullámot...

MA 12:34

A OnePlus Turbo óriási akkumulátorral robban be

A OnePlus új lendületet vesz: legújabb fejlesztése, a OnePlus Turbo-széria hangos belépőt ígér az okostelefonok piacán...

MA 11:50

A Magdala-kő rejtélye: a világ legkorábbi jeruzsálemi menórája

Egy zarándok több mint 2000 éve örökíthette meg emlékeit a Magdala zsinagógában fellelt kőtömbbe vésett menóra formájában, amelyet a tudósok ma a világ legrégebbi ilyen ábrázolásaként tartanak számon...

MA 11:34

Az év szava idén: MI-szemét

🚬 Az MI által gyártott értéktelen tartalmak annyira elterjedtek 2025-re, hogy az egyik legnagyobb angol szótár, a Merriam-Webster is felvette a szenny (slop) kifejezést új jelentéssel...

MA 11:17

Az életüket kockáztató kolibrik: a természet középkori lovagjai

A zöld erdei kolibri csillogó tollazatával és tűhegyes, hosszú csőrével nemcsak a nektárgyűjtés mestere a közép- és dél-amerikai őserdőkben, hanem igazi harcos is, ha eljön a párzási időszak...

MA 11:02

Az MI miatti csiphiány megdobhatja a mobilok árait

📱 Az MI-vezérelte csiphiány jelentős drágulást hozhat a mobiltelefonok piacán 2026-ban. Az okostelefonok átlagos eladási ára várhatóan 6,9%-kal nő, főként a memóriachipek árának ugrásszerű emelkedése miatt...

MA 10:59

Az év biológiai áttörései: emlékezet, evolúció és az MI legfurcsább titkai

🔬 Tipikus, hogy egyetlen év biológiai felfedezései is képesek megváltoztatni mindazt, amit tudni vélünk magunkról, az állatokról – vagy akár a gépekről...

MA 10:51

A hatalmas SSD, ami valahogy elkerülte mindenki figyelmét

👀 Egy alig ismert lengyel adattároló cég, a Goodram Enterprise csendben piacra dobott egy 122,88 TB kapacitású, PCIe 5...

MA 10:45

Az új klímamodell felforgathatja Ausztrália jövőjét

🌎 Ilyen eset például, amikor az éghajlatváltozás mindent átalakít: otthonainkat, élelmiszer-termelésünket, a bozóttüzek, áradások és hőhullámok kockázatát...

MA 10:38

Az óriáshőszivattyúk forradalma: így alakul át a jövő energiája

A Rajna vízéből energiát nyerő megaberendezések Németországban, Mannheim városában olyan óriási csövet szerelnek fel, amelyben bárki kényelmesen, állva átsétálhatna: ez a cső másodpercenként 10 000 liternyi vizet szív fel a Rajnából...

MA 10:30

Az óriásszörnyek uralták a folyókat a dínók utolsó napjaiban

🚤 Úgy tűnik, hogy a dinoszauruszok utolsó éveiben a Föld nemcsak hatalmas szárazföldi ragadozókkal, hanem elképesztő vízi bestiákkal is tele volt...

MA 10:02

Az öt genetikai kulcscsoport, amely meghatározza a pszichiátriai zavarokat

🔨 Lényeges szempont, hogy az emberi viselkedés és mentális egészség szoros összefüggésben áll a genetikával, ám a pszichiátriai zavarok hátterében rejlő örökletes tényezők egyre összetettebb képet mutatnak...

MA 09:57

Az új SantaStealer lecsap: böngészőket és kriptotárcákat foszt ki

🔒 Egy orosz fejlesztő SantaStealer néven indította el legújabb kártékony programját, kimondottan adatlopásra...

MA 09:50

A Google továbbra is uralja a világhálót

🚀 Az idei évben az internetes forgalom világszerte 19 százalékkal nőtt, és a Google magabiztosan őrzi koronáját az online világban...