Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

Top
hétfő 16:50

Egyetemet végzett milliárdosok – ki mit végzett?

A közvéleményben gyakran keringenek olyan történetek, amelyek a felsőoktatásból kimaradó vállalkozókról szólnak...

szerda 20:49

A Google új MI-je, a Gemini 3 még okosabb lett

🚀 A Google bemutatta legújabb MI-modelljét, a Gemini 3-at, amelyet saját állítása szerint eddigi legintelligensebb modelljének tekint...

szerda 20:33

Egy elavult Samsung mobil miatt végzetes tragédia Ausztráliában

🔥 Egy sydney-i lakos halála rávilágított arra, hogy élet és halál múlhat egy mobiltelefon szoftverfrissítésén...

szerda 20:18

Az okos szenzorok új korszakot nyitnak a mezőgazdaságban

Egy Utah állambeli búzamező rekordot döntött, miután a BYU egyetemi hallgatóiból és professzoraiból álló csapat a világ egyik legfejlettebb mezőgazdasági szenzorrendszerét telepítette a területén...

szerda 20:03

A Black Ops 7: végre olyan CoD-multi, amire vártunk

A Black Ops 7 hasonló stratégiát követ, mint amilyet a Modern Warfare 3 a Modern Warfare 2 után: nem hagytak időt két megjelenés között, hanem rögtön egymás után érkeztek a részek...

szerda 19:51

A kaméleonszem igazi titka végre kiderült

Évezredeken át csodálták a kaméleonokat, főleg azért, mert szemük szinte bármilyen irányba mozoghat – ráadásul akár egymástól függetlenül is...

szerda 19:34

Tényleg 21 millió éve csókolózunk?

Tipikus példa arra, amikor egy ártatlannak tűnő mindennapi mozdulat, mint a csókolózás, egész evolúciós történelmet rejthet...

szerda 19:18

A krónikus gyulladás észrevétlenül átírja a csontvelő működését

Különösen igaz ez akkor, ha a szervezet évek alatt keletkező idült gyulladások hatására kezd megváltozni – a legnagyobb meglepetést pedig az okozza, ahogyan a csontvelő fogékonyabbá válik veszélyes betegségekre...

szerda 19:03

Az univerzum csak ránk vár: mi történik, ha senki sem figyel?

A kvantummechanika és a gravitáció talán legfurcsább összefonódása egy meglepő paradoxont szült: vajon van-e értelme egy olyan világnak, amelyben nincsenek megfigyelők?..

szerda 18:49

Az orosz kiberbűnözők szervereire lecsap az új szankcióhullám

Az Egyesült Államok, az Egyesült Királyság és Ausztrália újabb szankciókat jelentett be azokkal az orosz „golyóálló” tárhelyszolgáltatókkal szemben, amelyek kiberbűnöző bandákat, például zsarolóvírus-hálózatokat támogatnak...

szerda 18:33

Az MI5 lerántja a leplet Kína kémtoborzó trükkjeiről

🕵 Kínai hírszerzők egyre kifinomultabb módszerekkel próbálnak beépülni az Egyesült Királyság kulcsfontosságú intézményeibe...

szerda 18:17

Az AMD és a Cisco szaúdi MI-szövetsége átírja a játékszabályokat

⚡ A chipgyártó AMD, a hálózati óriás Cisco és a szaúdi Humain nevű MI-startup egyesítik erejüket, és közös vállalkozást indítanak adatközpontok építésére a Közel-Keleten...

szerda 18:02

A humanoid robot hátáról rajtol az alakváltó drón

🤖 A Caltech mérnökei olyan robotrendszert alkottak, amelyben egy humanoid robot hátán egy különleges, átalakulni képes drón, az M4 utazik...

szerda 17:49

Az új Microsoft-felhő-PC MI-t kap, de nem Copilot+

💻 A Microsoft új szintre lépett a felhőalapú számítástechnikában, bemutatta a Windows 365 MI-képes Cloud PC-t...

szerda 17:04

Az Nvidia 1800 milliárd dolláros óriástétje az MI-ben: kérdések Jensen Huanghoz

💰 Az Nvidia negyedéves gyorsjelentése a figyelem középpontjában áll, hiszen nemcsak a legnagyobb MI-láz közepén vagyunk, hanem most dől el az is, valóban bírják-e majd pénzzel az iparági szereplők az önmagukat gerjesztő MI-beruházások számláit...

szerda 16:34

Az elektromos Jeep Recon befutott: indulhat a terepforradalom

🚙 A Jeep végre bemutatta az első teljesen elektromos SUV-ját, a Jeep Recont, amely hivatalosan is 2026-tól lesz kapható...

szerda 16:17

Az internet kis híján megállt – mi állt a Cloudflare-kiesés mögött?

Kedden a Cloudflare hat éve nem látott mértékű leállást szenvedett el, ami közel hat órán keresztül tette elérhetetlenné a világ számos weboldalát és online platformját...

szerda 16:03

A Windows búcsút int a kékhalálnak a digitális kijelző móddal

Külön említést érdemel, hogy a Microsoft egy új Windows-üzemmódot vezet be, amely automatikusan eltünteti a hírhedt kékhalált (BSOD) a nyilvános kijelzőkről 15 másodperc után...

szerda 15:50

A fél internet térdre rogyott a Cloudflare leállása miatt

Kedd délelőtt egy rejtélyes globális hiba miatt az internet egyik legnagyobb, szinte láthatatlan közműve, a Cloudflare szolgáltatása leállt...