2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 08:43

A brit hálózatokat még mindig az elavult technológia kísérti

Érdemes megérteni, hogy az Egyesült Királyságban ezrek működtetnek olyan informatikai rendszereket, amelyek kritikus sebezhetőségeit már több mint tíz éve feltárták...

MA 08:36

Most kapaszkodj: az ügyvéd, aki a Jeopardy!-t is leuralja

Őrület, de tényleg megtörtént: Derek Kaufman, a TMZ saját ügyvédje, este ott virított a Jeopardy!..

MA 07:57

Az új videojáték-óriás felforgatja a megjelenési naptárakat

A nagysikerű Subnautica folytatása végre hivatalos megjelenési dátumot kapott: 2026. május 14-én érkezik a várva várt Subnautica 2...

MA 07:43

Az Alibaba új MI-ügynöke száműzi a felesleges eszközhasználatot

🤖 A mesterségesintelligencia-ügynökök egyik legnagyobb kihívása, hogy mikor használjanak külső eszközöket, és mikor bízzanak saját tudásukban...

MA 07:22

Az ókori római bilik leleplezik: ősi parazita gyötörte az embereket

Az ókori Római Birodalom határán, a mai Bulgária területén feltárt éjjeliedények falán és alján megtapadt vizelet- és székletmaradványok új részleteket tártak fel a rómaiak egészségi állapotáról: ezekből kerültek elő a világ legrégebbi, emberben talált Cryptosporidium parazitájának nyomai...

MA 07:15

Az X1 Neo robotok átvették a gyártósort: önmagukat építik

🤖 A humanoid háztartási robotok elterjedésére még várni kell, hiszen sem a Tesla Optimus, sem a Figure AI modelljei nem kaphatók, míg az 1X 7,1 millió forintos Neo Home robotja is még csak előrendelhető...

MA 07:01

Az okostelefonos dráma: mit rejteget Kirsten Storms titkos viszonya?

📱 Na most kapaszkodj, mert Kirsten Storms, az Általános kórház (General Hospital) ikonikus sztárja most a franklini rendőrség vizsgálatának középpontjában áll...

MA 06:57

Az ősi fegyverek rejtélyes világa: felismered mindet?

⚔ Érdemes megvizsgálni, hogy a múlt harci eszközei mennyi érdekességet rejtenek magukban...

MA 06:43

Az április felrázta a techrészvényeket, de a buli még rázós

🎉 A Nasdaq Composite idén áprilisban olyan szárnyalásba kezdett, amilyet a 2020-as Covid-kitörés óta nem láttunk: több mint 15%-os növekedést produkált, ami messze felülmúlta a várakozásokat...

MA 06:36

Az NYT Connections ravasz feladványa: csőr vagy autópolír?

A Connections e kiadása ismét próbára tette a szórejtvények szerelmeseit. A 1055...

MA 06:29

A filléres vasalapú akkumulátorok átírhatják az energiatárolás szabályait

A kínai tudósok áttörést értek el a vasalapú áramlásos akkumulátorok fejlesztésében, amelyek akár 16 éves élettartamot ígérnek teljesítményromlás nélkül...

MA 06:22

A Windows új Xbox-módja: tényleg csak a külcsín változott?

🎮 A várva várt Xbox-mód végre megérkezett Windows 11-re, de a felhasználóknak csalódniuk kell, ha komolyabb teljesítményjavulásban bíztak...

MA 06:05

Történelmi események a mai napon (Május 1.)

Április 30-án királyi hatalomváltások, birodalomalapítások és sorsfordító politikai döntések formálták a világot...

csütörtök 20:34

Az igazi PlayStation-élmény PC-n: megérkezett a trükkös adapter

🎮 Végre elérhetővé vált a teljes PS5-ös DualSense-élmény PC-n is, anélkül, hogy kábelekkel kellene bajlódni...

csütörtök 20:23

Az ellenőrzés szigorodik: a Polymarket Wall Street-szintre emeli szabályait

A Polymarket, a kriptoalapú jóslási piac radikális lépést tett: megállapodott a Chainalysis-szel, hogy valós időben figyeljék a kereskedéseket...

csütörtök 20:12

Az új előrejelzési piac: a Gemini berobban az amerikai piacra

Az amerikai kriptopiacon hatalmas lendületet vett a verseny, miután a Winklevoss ikrek kriptotőzsdéje, a Gemini megszerezte a szükséges szövetségi engedélyeket a származékos és predikciós piaci tevékenységekhez...

csütörtök 20:01

Az olajár háborús csúcson: ennyivel fizetünk többet a benzinért

🔥 A Brent nyersolaj hordónkénti ára csütörtökön elérte a 126 dollárt (kb...

csütörtök 19:56

Az MI olcsón indul, de gigászi számlákat hoz

💸 Az MI térnyerése miatt egyre több vállalat helyezi át a hangsúlyt a kísérleti modellek fejlesztéséről a tényleges, mindennapos MI-alkalmazásokra...

csütörtök 19:45

A fél internet veszélyben: kritikus cPanel-sebezhetőség

Az online világ egyik legfontosabb webszerver-kezelő eszközében olyan súlyos biztonsági hibát fedeztek fel, amely több tízmillió weboldalt fenyeget...

csütörtök 19:24

Az AdGuard VPN Macen végre akadálymentesen használható

A legújabb, 2.9-es AdGuard VPN-frissítés a Mac-felhasználók jelentős csoportjának hoz igazán hasznos újítást: az alkalmazás most már akadálymentesen használható látássérült felhasználók számára is...

csütörtök 19:12

Berobbant a stabilcoin-láz: bankok és fintech cégek a digitális pénzvonaton

💰 Mint minden valamirevaló krimi, ez is csendben kezdődött: az Anchorage Digital, az egyik legnagyobb amerikai digitális letétkezelő most az M0-ra (ejtsd: „em nullára”) bízta a stabilcoin-technológiájának fejlesztését...

csütörtök 19:03

Az olcsó gamer fejhallgatók új királya? Glorious GHS Eternal teszt

🎧 A gamer fejhallgató választásánál mindig felmerül a dilemma: vezetékes vagy vezeték nélküli legyen a következő fülesem?..

csütörtök 18:57

Az MI önjáró lett: a Writer kihívja a techóriásokat

Érdekes felvetés, hogy az MI-alapú vállalati rendszerek mennyire tudnak beavatkozás nélkül működni...

csütörtök 18:45

Az igazi meglepetés: Ingyen kapod a Wasteland felújított kiadását, és működik!

Képzeld el, hogy egy váratlan hiba miatt teljesen ingyen be lehetett húzni a legendás Wasteland – Felújított kiadást (Wasteland Remastered) a Microsoft Store-ban...

csütörtök 18:34

Az időjárás-jelentés, ahol a hőségnek ára van

🌡 Felmerül a kérdés, hogy hová vezet az, amikor a gazdasági szereplők végül mindent, még a hőmérsékletet is pénzre váltható eseménnyé tesznek...

csütörtök 18:23

Az elszálló memóriaárak alaposan megterhelik a pénztárcákat

A fogyasztók egyre nehezebben jutnak hozzá megfizethető memóriához, miközben a félvezetőiparban hatalmas pénzek forognak...

csütörtök 17:14

Az Olden Era több mint nosztalgia: a stratégák mennyországa

🗺 Felmerül a kérdés, hogy lehetséges-e valóban újat mondani a nagy klasszikusok után, vagy az új versenyzők örökké csak az elődök nyomdokában járnak majd...

csütörtök 17:02

A bitcoin újra szárnyal: áttöri a 80 ezer dolláros határt?

🚀 A bitcoin ára ismét felfelé kúszik, de a 80 ezer dolláros (kb...

csütörtök 16:56

Az Equalizer-kábel: csodaszer a videokártyád védelmére, vagy átverés?

🔧 A videokártyák túlmelegedése újabban mindennapos probléma, ami miatt a gyártók nem csatlakozócserével, hanem újfajta kábelekkel és tápegységekkel igyekeznek biztonságot nyújtani...