Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

kedd 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

csütörtök 20:50

Az MI új trükkjei: védekezés a hálózat mélyén

Érdekes felvetés, hogy a kiberfenyegetések napjainkra új szintre léptek: a támadók egyre gyakrabban támaszkodnak mesterséges intelligenciára, amivel a védekezés is komplexebbé és a sebességét tekintve is nagyobb kihívássá válik...

csütörtök 20:33

A Mullvad kizárja az OpenVPN-t: csak a WireGuard marad

A Mullvad VPN merész lépésre szánta el magát: végleg száműzi az OpenVPN-támogatást az asztali alkalmazásokból, és minden felhasználót WireGuardra terel át...

csütörtök 20:17

Az új főbűnös a rejtélyes halálos kórokban: a hiányzó fehérje

Egy új felfedezés szerint egy eddig rejtve maradt fehérje, az RPA, kulcsfontosságú lehet számos, akár halálos betegség kialakulásában...

csütörtök 20:02

Az árzuhanás megkezdődött az ingatlanpiacon – nem mindenkinek jó hír

Több mint két év után először országos szinten csökkennek a házárak az Egyesült Államokban...

csütörtök 19:49

Az alakváltó molekulák forradalma már itt van

🚀 A Jyväskyläi Egyetem kutatói áttörő módszert fejlesztettek, amellyel a szintetikus molekulák egyszerűen programozhatók: így most már képesek spirális szerkezetekbe rendeződni, sőt akár formát is váltani...

csütörtök 19:34

Újabb biztonsági rés: 700 Gogs-szervert törtek fel világszerte

Egy foltozatlan, eddig nem nyilvánosságra hozott biztonsági rés a Gogsban, a népszerű, önállóan üzemeltethető Git-szolgáltatásban lehetővé tette, hogy támadók távoli kódfuttatást hajtsanak végre, és így több száz szervert kompromittáljanak világszerte...

csütörtök 19:17

Az Xsight Labs parányi chipje tarol a Starlinknél

Az Xsight Labs, amely mögött olyan nagyágyúk állnak, mint az AMD, az Intel Capital és a Marvell, most komoly győzelmet aratott: az ő X2 kapcsolóchipjük került be a SpaceX új, Starlink V3 műholdjaiba...

csütörtök 19:03

Visszatér-e a Twitter? Bluebird szemben Elon Muskkal, a „márkagyilkos megváltóval”

Fontos kérdés, hogy vajon feltámasztható-e az egykor legendás Twitter, amelyet Elon Musk minden eddiginél radikálisabban változtatott meg, és most már X néven fut...

csütörtök 18:49

A Disney-varázs elszabadult: MI-vel bárki sztárt gyárthat

🎞 A Disney 360 milliárd forintot (1 milliárd dollárt) fektet az OpenAI-ba, hogy legendás karakterei életre kelhessenek a legújabb MI-alkalmazás, a Sora segítségével...

csütörtök 18:34

Az MI nagy dobása: Disney-hősök kelnek életre Sora-videókban

📺 A Disney óriási, 370 milliárd forintos (1 milliárd dollár) befektetést jelentett be az OpenAI-ba, amellyel példátlan együttműködést indít el a generatív MI világában...

csütörtök 18:17

A Windowsban végre vége a fehér villanásoknak

A Microsoft végre orvosolta azt a bosszantó hibát, amely miatt a Windows 11 Sötét módban futó Fájlkezelő használatakor hirtelen vakító fehér villanások jelentek meg...

csütörtök 18:02

A tél kapuja: mit hoz a téli napforduló?

Decemberben a legrövidebbek a nappalok, de a tél kezdete nem is olyan egyértelmű, mint hinnéd...

csütörtök 17:50

A fogyókúra új csodaszere: dán gyógyszergyár szorongatja a nagyokat

Ez a jelenség jól illusztrálható azzal, hogy a dán Zealand Pharma merész, 2030-ig tartó stratégiát hirdetett, amellyel új lendületet hozna a fogyást segítő gyógyszerek piacára...

csütörtök 17:33

Az idei nyolcadik Chrome-botrány: újabb kritikus hibát foltozott a Google

⚠ A Google újabb, a gyakorlatban is kihasznált, úgynevezett nulladik napi sebezhetőséget javított a Chrome böngészőben – ez már a nyolcadik ilyen javítás 2025-ben...

csütörtök 17:18

Az aranyos társasjáték, amely brutális agytornát kíván

Érdekes felvetés, hogy egy tündéri, állatkákkal illusztrált társasjáték valójában igazi, többrétegű stratégiai kihívást rejthet...

csütörtök 17:02

Az új Pixel Camera-frissítés totális káoszt okoz?

📷 A Pixel telefonokat sokan főleg kiváló fotózási képességeik miatt választják, és a gyári Pixel Camera alkalmazás most a 10...

csütörtök 16:50

A szmogtengerben fuldoklik Hanoi

Egy hete vastag, mérgező szmog borítja Hanoi utcáit, amely elhomályosítja a város látképét, és nehézlégzést okoz a kilencmilliós lakosság körében...

csütörtök 16:33

A 4000 milliárdos gigadeal: az IBM viszi a Confluentet

💰 A technológiai világ ismét felforrósodott: az IBM bejelentette, hogy 11 milliárd dollárért (kb...