2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 19:01

Az ETF-ekbe ömlik a kriptópénz – meddig tart a roham?

A digitális eszközalapok múlt héten soha nem látott 2,17 milliárd dollár (kb...

MA 18:55

Az Apple elkeni a határt a hirdetések és találatok között

🔍 Az Apple éppen új App Store felületet tesztel, ahol a hirdetések és a tényleges találatok egyre nehezebben megkülönböztethetők...

MA 18:37

Az óriáspókot imitáló hálók visszariasztják a ragadozókat

🕷 Az apró *Cyclosa*-pókok különös védekező stratégiáját fedezték fel: a mindössze néhány milliméteres állatok óriáspók-alakú „díszeket” szőnek pókhálójukra, hogy elijesszék a ragadozókat...

MA 18:01

Vége az okosóráknak? Új per kinyírhatja a kedvenc funkciódat

Az MI-alapú esésérzékelés mára szinte alapszolgáltatásnak számít az Apple Watch, a Google, a Samsung és a Garmin legnépszerűbb okosóráiban...

MA 17:54

Az energiaéhes Kína már kétszer annyi áramot fogyaszt, mint Amerika

Kína 2025-ben minden eddiginél több áramot használt fel: az ország éves fogyasztása 10,4 billió kilowattóra, ami kétszer annyi, mint az Egyesült Államoké...

MA 17:37

Az MI-verseny: a Threads mobilon lehagyta az X-et, de korai az öröm

A Meta Threads alkalmazása végre átvette a vezetést az X előtt a napi mobilos felhasználók számában: január elején 141,5 millió napi aktív iOS-es és androidos felhasználót ért el, míg az Elon Musk-féle platform 125 millióval kullog mögötte...

MA 17:19

Az MI, amely végre nem leskelődik: megérkezett a Confer

Az MI-asszisztensek robbanásszerű terjedése komoly aggályokat vet fel a személyes adatok védelmével kapcsolatban...

MA 17:01

Az új zsebkonzol, ami letarolja a piacot?

A MANGMI új kézikonzolja, a Pocket Max, komoly izgalmat váltott ki a játékosok körében...

MA 16:37

Az új FiiO JM21: zsebnyi koncert, döbbenetes tárhellyel

A Fiio JM21 hordozható Hi-Res Audio-lejátszója 2026-ban jelentős frissítést kap. Az új modell, amelyet január 23-án dobnak piacra körülbelül 91 000 forintért (250 USD), továbbra is két Cirrus Logic CS43198 DAC-ot használ, akárcsak elődje, viszont nagyobb akkumulátorral és több tárhellyel csábít...

MA 16:19

Az orvosi kannabisz nem csodaszer: idegfájdalomra hatástalan

A kannabisz-alapú szerekre sokan a krónikus idegi fájdalom új reményeként tekintenek, de a legnagyobb átfogó vizsgálat szerint ezeket a várakozásokat nem igazolja a tudomány...

MA 16:01

Az új One UI megérkezett: a Bixby szintet lép

A Samsung hamarosan kiadja a One UI 8.5 negyedik bétaverzióját a Galaxy S25-re, amelynek egyik legnagyobb újítása egy okosabb, MI-alapú Bixby lesz...

MA 15:57

A robotporszívód bevetésre kész: 7 tipp a tökéletes rajthoz

🧺 Megérkezett a vadonatúj robotporszívó, de nem tudod, hogyan kezdj hozzá a használatához?..

MA 15:39

A Motorola Moto Watch Fit lehet az olcsó okoskarkötők királya?

A Motorola Moto Watch Fit az utóbbi idők egyik legbarátságosabb árú fitneszkarkötője, mégis meglepően sok személyre szabható funkciót kínál a mindennapos sportoláshoz és egészségkövetéshez...

MA 15:20

Az MI és az új technológiák adhatnak új életet a DAO-knak

🤖 Vitalik Buterin, az Ethereum társalapítója szerint eljött az idő, hogy alapjaiban gondoljuk újra a decentralizált autonóm szervezeteket, vagyis a DAO-kat...

MA 15:02

Az elfelejtett Garmin-trükk: egy mozdulat, és ott a főképernyő

Sokan nem is sejtik, hogy a Garmin okosórájuk mennyi rejtett trükköt és funkciót kínál, amelyek nemcsak edzés közben, de a mindennapi használat során is megkönnyíthetik az életet...

MA 14:57

Az iPhone 17 berobban – bajban lehet az iPhone 16?

Az Apple legújabb iPhone 17 modellje már a boltok polcain van, de most kedvezményes áron könnyen juthatsz iPhone 16-hoz is...

MA 14:37

Az olcsó TP-Link TX201 hálózati kártya tesztje: megéri az árát?

💲 A TP-Link TX201 egy rendkívül egyszerű, 2,5 GbE sebességű PCIe hálózati adapter, amely a jól ismert Realtek RTL8125 chipre épül...

MA 14:19

Az érzelmek arcai autizmusban: miért beszélünk el egymás mellett?

A legfrissebb kutatások szerint az autista és nem autista emberek eltérő módon fejezik ki érzelmeiket az arcukkal, ami kölcsönös félreértésekhez vezethet...

MA 14:02

Az MI energiaéhségét fékezik: új korszak a brit adatközpontokban

⚡ Az MI forradalma óriási lendületet vett világszerte, de a fejlődés súlyos árnyoldallal jár: a mesterséges intelligencia energiaszükséglete elképesztő mértékben nő...