Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 20:52

A CES 2026-on aranyos és félelmetes robotok szabadulnak el

🤖 Érdemes megvizsgálni, hogy a 2026-os Las Vegas-i CES vásáron milyen változatos és meglepő robotokkal találkozhattunk...

MA 20:35

Az amerikai kriptoautomaták napjai meg vannak számlálva?

💸 A kriptovaluta-automaták, vagyis azok a gépek, amelyek készpénzt alakítanak át digitális valutává, az utóbbi években az átverések első számú eszközévé váltak Amerikában...

MA 20:18

Az új óriáskígyó felfedi Amazónia legmélyebb titkát

Egy lényeges szempont, hogy az amazóniai esőerdő mélyén nemrég egy új, eddig ismeretlen óriásanakonda-faj bukkant elő a tudósok előtt...

MA 20:02

Az MI nem váltja ki az embert, mégis minden PC-be költözik

🤖 A Lenovo vezérigazgatója, Yuanqing Yang szerint 2026 végére a vállalati piacra szánt számítógépek fele már MI-alapú lesz...

MA 19:49

Az első vészhelyzeti ISS-evakuálás: bajba jutott űrhajósok hazatérnek

🚀 Négy űrhajós térhet vissza a Földre először kényszerű evakuálás miatt, miután egyikük rejtélyes, súlyos egészségügyi problémával küzd az ISS-en...

MA 19:34

Az Ariane–6 újrafelhasználása: Európa Frankenstein-rakétája?

Az európai űripar évtizedekig a hagyományos rakéták egyszer használatos, eldobható modelljéhez ragaszkodott, miközben a világban egyre nagyobb hangsúlyt kapott az újrahasználat...

MA 19:18

Az év, ami nem négyzetszám, mégis izgalmas: 2026 matematikai titkai

🧠 Érdemes megérteni, hogy bár a 2026-os év első ránézésre nem tűnik rendkívülinek, számos matematikai érdekességet rejt...

MA 19:01

Az eddigi leglassabb Windows? A Windows 11 legnagyobb bakijai

A legtöbb felhasználó szerint a Windows 11 nemcsak tele van felesleges funkciókkal, amelyeket nehéz kikapcsolni, hanem teljesítményben is nagy csalódást okoz...

MA 18:50

A kihalt dinoszauruszok és a szunnyadó fekete lyuk rejtélyei

🦖 Boldog új évet! Idén is akadnak meglepő felfedezések: például hogy a vöröshajúak hajpigmentje különleges, és egy regeneratív nanotechnológia képes lehet védeni az agyat...

MA 18:33

Az iLO 6-ban ez változik, ha Essentialsról Advancedre lépsz

Sokan megszokták, hogy az iLO Advanced funkcióit használják a HPE szervereken, de vannak rendszerek, amelyek csak az alap Essentials kiadással érkeznek...

MA 18:19

Az okosszemüvegek forradalma: a CES 2026 legütősebb modelljei

👓 Az idei CES kiállításon Las Vegasban az okosszemüvegek vitték a prímet, soha nem látott választékban...

MA 17:49

Az ír útlevélbotrány: 13 ezer hibás okmányt hívnak vissza

Írország külügyminisztériuma csaknem 13 000 útlevelet hív vissza, mert egy szoftverfrissítés hibája miatt hibásan nyomtatták ki azokat...

MA 17:33

A kialvatlanság éveket rabol az életedből

🛍 Érdemes megvizsgálni, milyen komoly következményei lehetnek a kevés alvásnak. Rendszeresen kevesebb mint hét órát aludni nemcsak fáradttá tesz, hanem években mérhetően megrövidítheti az életedet...

MA 17:18

Az űróriás Pandora hamarosan a rejtélyes exobolygók nyomába ered

🚀 A Pandora nevű, hűtőszekrénynyi műhold minden eddiginél pontosabban vizsgálja majd a Naprendszeren túli bolygókat...

MA 17:02

A bitcoin 2050-re 2,9 millió dollárt érhet – veri az aranyat?

💵 A VanEck alapkezelő szerint a bitcoin elképesztő, 2,9 millió dolláros (kb...

MA 16:50

Az űrállomás első orvosi mentése: ki a beteg űrhajós?

A NASA váratlanul, néhány nappal a tervezett időpont előtt hazahozza a Nemzetközi Űrállomás négyfős legénységét az egyik űrhajósnál fellépő egészségügyi probléma miatt...

MA 16:17

Az iPhone Air 2: szebb kijelző, nagyobb akku – de kinek kell?

📱 Az Apple hamarosan újít az iPhone Air-szérián. Bár a jelenlegi modell nem váltotta be igazán a vállalat reményeit, a pletykák szerint 2027-ben jöhet az iPhone Air 2...

MA 16:04

Az elegáns Goldring GR3 hódít, de egy dolog beárnyékolja

🎧 Érdemes észben tartani, hogy a Goldring hosszú kihagyás után, mintegy húsz év elteltével tér vissza a lemezjátszók világába, méghozzá egy olyan készülékkel, amely egyenlő arányban kínál kényelmet, minőséget és látványos megjelenést...

MA 15:49

Az életért folyik a harc a Fülöp-szigeteki lerakóomlás után

A Fülöp-szigeteki Cebu városában már napok óta tart a küzdelem a Binaliw nevű hulladéklerakó összeomlása után, ahol a mentők versenyt futnak az idővel, hogy rátaláljanak a több mint harminc eltűnt dolgozóra...