2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 20:56

Az első igazán jó Kindle Scribe, végre színesben is ütős

📖 Érdekes felvetés, hogy meddig tarthatunk ki a klasszikus e-olvasók mellett, amikor a gyártók folyamatosan újabb funkciókkal és technológiai bravúrokkal próbálnak meggyőzni minket...

MA 20:37

Az amerikai befektetők kitartanak a bitcoin mellett, máshol viszont pánikolnak

💰 Miközben az amerikai intézményi befektetők továbbra is lelkesen tartják bitcoinpozícióikat, a tengerentúli kereskedők óvatosabbá váltak...

MA 20:19

Az UGREEN 2,5 GbE-s USB-adapter mindent tud, ami számít

Az UGREEN USB-A–RJ45 2,5 GbE adapter egyszerű és praktikus megoldás, ha külső hálózati csatolóra van szükség, és csak USB-A-port áll rendelkezésre...

MA 20:02

Az MI-költés lenullázhatja az Amazon és az Alphabet eredményeit

💸 A két amerikai technológiai óriás, az Amazon és az Alphabet idén rekordösszegű beruházással készül forradalmasítani a mesterséges intelligencia területét...

MA 19:56

Az evolúció legvadabb húzása: a kannibál kígyók rejtélye

🐍 A kígyók gyakrabban lesznek kannibálok, mint gondolnánk – legalább tizenegy esetben fejlődött ki náluk önállóan ez a viselkedés, ami egyre több kutató szerint stratégiai előnyt jelent a faj túlélése szempontjából...

MA 19:19

Az MI véget vet az app-előfizetések korszakának

Az alkalmazásfejlesztés forradalmi átalakuláson megy keresztül: ha már fillérekből készíthető egy app, pillanatok alatt le is lehet másolni...

MA 19:02

Az oltásellenesség újra súlyos betegségeket szabadíthat ránk

Az elmúlt évtizedekben az egészségügyi rendszerek és a tudomány komoly sikereket értek el a fertőző betegségek kezelése és megelőzése terén, mégis egyre gyengülnek a közegészségügyi intézkedések...

MA 18:56

Búcsút inthetünk az ingyen reggelinek az amerikai hotelekben?

Az amerikai szállodák világa évtizedekig elképzelhetetlen volt bőséges, ingyenes reggeli nélkül...

MA 18:37

Hollywood pánikban: az MI szabadon fosztogatja a filmes jogokat

A kínai ByteDance új Seedance 2.0 videógenerátora felbolygatta a filmipart. A cég friss fejlesztése lehetővé teszi, hogy a felhasználók mindössze szöveges utasítások alapján 15 másodperces videókat hozhassanak létre, akár hírességek szerepeltetésével vagy ismert filmkarakterek megjelenítésével, teljesen szabadon...

MA 18:19

Az univerzum óriása rejtély elé állítja a tudósokat

💫 A James Webb űrteleszkóp és a Chandra röntgenobszervatórium lenyűgöző részletességű képeket készítettek egy formálódó galaxishalmazról, amely akkor létezett már, amikor az univerzum mindössze egymilliárd éves volt...

MA 17:37

Az online szerelem drága: milliárdokat húznak be a digitális szívtolvajok

Globális bűnszervezetek egyre különlegesebb módszerekkel hódítanak meg magányos szíveket — és üresítik ki az áldozatok pénztárcáját...

MA 16:54

A potencianövelők rejtett ereje: friss áttörések a kutatásban

A legújabb kutatások szerint a Viagra és a Cialis hatóanyagai nemcsak a szexuális életben hoznak javulást, hanem komoly egészségügyi előnyöket is kínálnak a szív, az agy és a tüdő számára...

MA 16:37

Az NFL következő szezonja minden eddiginél nagyobb durranás lesz

Fontos kérdés, meddig tud még növekedni az NFL, amikor már az idei szezon is minden rekordot megdöntött...

MA 16:19

A sztatinok mellékhatásai: mi igaz, és mi csak mítosz?

Fontos kérdés, hogy valójában mennyire veszélyesek a sztatinok, hiszen ezek a szív- és érrendszeri betegségek megelőzésére leggyakrabban alkalmazott gyógyszerek közé tartoznak...

MA 16:01

Az MI nem tud jó videojáték-világokat alkotni – és talán sosem fog?

A videojáték-ipar már régóta kísérletezik olyan játékokkal, amelyek képesek saját világokat generálni...

MA 15:38

Az űrutazás tényleg átírja az agyunkat?

Az űrutazás nemcsak a testet, hanem az agyat is alaposan próbára teszi...

MA 15:20

Az MI már a barátaidon keresztül is megszerezheti a telefonszámodat

Jellemző példa erre, hogy az OpenAI legújabb fejlesztése lehetővé teszi a felhasználók számára, hogy szinkronizálják a névjegyeiket a ChatGPT-vel – vagyis a mesterséges intelligencia most már könnyedén hozzáférhet ahhoz, hogy milyen telefonszámokat tárolnak az ismerőseid a telefonjukban...

MA 15:01

Az új chipválság már a Lenovót is elérte

⚠ A Lenovo már világszinten is érzi a memóriahiány hatásait, miközben a PC-piac fellendülése továbbra is tart...

MA 14:38

Az új Geekom GeekBook X14 Pro: leheletkönnyű, de pocsék az üzemidő

Egy lényeges szempont, hogy a Geekom eddig főként miniszámítógépeiről volt ismert, amelyek a monitor mögé rejthetők vagy az asztal alá csúsztathatók...

MA 14:19

A század legeldugottabb napfogyatkozása: tényleg csak a pingvinek látják?

🐧 Február 17-én különleges égi jelenség, úgynevezett „tűzgyűrű” napfogyatkozás következik, amelyet szinte kizárólag az Antarktisz lakatlan tájain lehet majd megfigyelni...

MA 14:02

Az internet emlékezete veszélyben: sorra tűnnek el a hálózati naplók

📦 Az internet páratlanul gazdag története veszélybe került, mivel olyan alapvető logfájlok tűnnek el, amelyek nélkül a jövő emberei talán soha nem érthetik meg, hogyan alakultak át a társadalmi és technikai rendszerek napjainkban...

MA 13:37

Az amerikai lakáspiacot elárasztják az eladó otthonok

🏠 Az elmúlt évek pandémiás fellendülése idején soha nem látott kereslet söpört végig az amerikai lakáspiacon, rekordalacsony szintre csökkentve az eladó ingatlanok és az építési telkek számát...

MA 13:20

Az Egyesült Államok mélyén óriási, rejtett vízkincs lapul

💧 Amerikai kutatók elkészítették a valaha volt legrészletesebb térképet az Egyesült Államok felszíne alatti vízkészletről...

MA 12:56

Az új évben tovább emelkednek a streaming-előfizetések árai

Érdekes felvetés, hogy a 2026-os év beköszöntével nemcsak a várva várt sorozat- és filmpremierekre kell számítani, hanem arra is, hogy ezekhez egyre borsosabb előfizetési díj társul...

MA 12:37

Az új mobiltrükk: Tényleg számít még a hűség?

📱 Az okostelefonok hőskorában a szolgáltatók szerződései, nagy kedvezményei és ingyenkészülék-akciói miatt sokan elhitték, hogy a hűség kifizetődő...

MA 12:20

Az új kameraszenzor, amelytől végre ragyognak a naplemente-fotóid

🌅 A modern okostelefonok kamerái az elmúlt évtizedben óriási fejlődésen mentek keresztül...

MA 12:01

Az agy átírja a valóságot: mire képesek a pszichedelikumok?

🧠 A pszichedelikumok az agyban lévő szerotoninreceptorokhoz kötődnek, amelyből eddig legalább 14 típust azonosítottak a kutatók...

MA 11:38

Az újabb hidrogénhiba miatt csúszhat az Artemis II startja

Érdemes megvizsgálni, hogy az Artemis holdmissziók előkészületeivel kapcsolatos műszaki nehézségek sokasága miként hátráltatja a NASA előrehaladását a történelmi jelentőségű út előtt...

MA 11:18

Az Apple végre befoltozza a tíz éve tátongó iOS-biztonsági rést

Az Apple a héten kiadott frissítésekben javította az iOS-t és a macOS-t is egy olyan, több mint tíz éve kihasználható biztonsági rést, amelyet vélhetően célzott támadások során használtak fel kereskedelmi kémszoftverek fejlesztői...