Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 20:49

A Focus Friend tarolt: az év legcukibb appja a Google Playen

Hank Green, az ismert YouTuber új fejlesztése, a Focus Friend lett a Google Play idei fődíjasa...

MA 20:34

A ritkaföldfémek vészes fogyása: tényleg kifogyunk?

A modern technológia 17 ritkaföldfém eleme nélkül ma már elképzelhetetlen lenne az élet: ezek az anyagok okostelefonok, elektromos autók, orvosi eszközök és számos más találmány kulcskomponensei...

MA 20:01

Az új MI-szupergomb a Windows 11-ben: áldás vagy átok?

A Microsoft új előzetes Windows 11-kiadással rukkolt elő, amelyben a Beállításokban megjelent egy vadonatúj kapcsoló az úgynevezett kísérleti, ügynökalapú (agentic) funkciók be- és kikapcsolására...

MA 19:50

Az ősi tó, ahol elszabadultak a mérgező algák

2024 októberében extrém erősségű, mérgező algavirágzás jelent meg Nevada északkeleti részének egyik legismertebb tavában, a Pyramid-tóban (Pyramid Lake)...

MA 19:33

A Cloudflare leállása világszerte megbénította az internetet

A Cloudflare világszerte súlyos szolgáltatáskimaradást tapasztalt, amely számos webszerver és online platform elérhetetlenségét okozta...

MA 19:17

A hatalmas francia adatbotrány: 1,2 millió állampolgár adatai veszélyben

A francia Pajemploi, amely a szülők és az otthoni gyermekfelügyeletet végzők közötti adminisztrációt kezeli, november közepén komoly adatlopást szenvedett el...

MA 19:02

A nappalidból felszállsz: az asztali repülőtér varázsa

A repülőgépek és repülésszimulátorok szerelmeseinek új korszak indul: az Echo Aviation Controller egyetlen gamepadnyi helyet foglal, mégis egy mini pilótafülkét varázsol az asztalodra...

MA 18:34

Az MI-háborúban új front nyílt: megérkezett a Gemini 3

Jellemző példa erre, hogy a Google bemutatta a Gemini 3-at, legújabb MI-modelljét, amellyel tovább élesedik a verseny az OpenAI-val...

MA 18:18

A MI-szupergrill megérkezett – aranyárban mérik

A Seergrills legújabb fejlesztése, a Perfecta, már megvásárolható, miután az év elején a CES 2024-en mutatkozott be...

MA 13:33

Az ázsiai tőzsdék zuhannak: visszaüt a MI-láz

Az ázsiai tőzsdéken kedden jelentős zuhanásokat láthattunk, miután a Wall Streeten is mélyrepülésbe kezdtek az MI-vel kapcsolatos technológiai vállalatok...

MA 13:02

Az univerzum mindent eltitkol: a fekete lyukak információs rejtélye

A világháló törékeny, a világegyetem örök Miközben az internetes oldalak közel fele már eltűnt a 2013-ban létezők közül, és rengeteg Wikipédia-oldalon halott hivatkozások vannak, az információk látszólag állandóan elvesznek körülöttünk...

MA 12:33

Az MI-verseny új bajnoka a Grok 4.1 – tényleg jobb?

🥇 Elon Musk MI-cége, az xAI elérhetővé tette a Grok 4.1-et, amely két új, továbbfejlesztett modellt kínál: a Grok 4...

MA 12:18

Az év űrszenzációja: Elképesztő, sosem látott képek a 3I/ATLAS-ról

Érdemes tudni, miért lesz november 19. különleges nap a csillagászat rajongói számára: a NASA végre bemutatja a 3I/ATLAS nevű csillagközi üstökösről készült, eddig nem publikált képeit...

MA 12:02

Kiváltja az iPhone vagy az Apple Watch az igazolványt?

💳 November 12-től új digitális azonosítási mód jelent meg az Apple-nél, amely lehetővé teszi, hogy amerikai útlevél alapján bárki létrehozzon és bemutasson egy személyi igazolványt közvetlenül az Apple Wallet alkalmazásban – akár iPhone-nal, akár Apple Watch-csal is...

MA 11:50

Az indiai hiány elszállt: aranyláz, amerikai válság fűti

🤑 Októberben India árukereskedelmi mérlege minden eddigi rekordot megdöntött, a hiány elérte a 15 470 milliárd forintot (41,7 milliárd dollár)...

MA 11:34

A Pentagon titkai ömlenek a netre

A Pentagonban komoly gondot okoz, hogy katonák és civilek egyaránt titkos információkat osztanak meg a közösségi oldalakon...

MA 11:01

Az adataink új őre: megérkezett a Private AI Compute

A Google új szintre emeli a mesterséges intelligencia felhasználását: bejelentette a Private AI Compute megoldást, amely a Gemini felhőalapú MI-modellek erejét ötvözi a bevált adatvédelemmel...

MA 10:57

A Google új időjárás-előrejelzése: villámgyors, elképesztően pontos, MI-vel

A Google jelentős frissítést hajtott végre időjárás-előrejelző rendszerén: új, MI-alapú modellje minden eddiginél pontosabban és gyorsabban jósolja meg az időjárást...

MA 10:49

Az OpenAI végre zöld utat ad a jótékony részvényadományoknak

Az OpenAI jelenlegi és korábbi dolgozói évek óta frusztráltan figyelték, hogy nem tudják részvényeiket jótékony célokra felajánlani...