2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 12:19

Az AI-képgenerálás új rekordere: megérkezett a Flux.2 Klein

📷 A német Black Forest Labs bemutatta legújabb nyílt forráskódú MI-képgenerátorát, a Flux...

MA 12:02

Az Apple Watch három titkos trükkje, amit muszáj kipróbálnod

Jellemző, hogy még a rutinos Apple Watch-használók is sokszor csak felszínesen ismerik az órájuk lehetőségeit, pedig néhány apró trükk valóban képes könnyebbé, kényelmesebbé és okosabbá tenni a mindennapokat...

MA 11:56

Az óriáshajó roncsának felfedezése újraírja a tengeri történelmet

🚤 Többek között egyedülálló középkori hajóroncsot találtak a dán tengerfenéken, amely új fénybe helyezi a korabeli kereskedelmet és a tengerészek mindennapjait...

MA 11:39

A pénztárcabarát VPN, ami meglepően erős – CyberGhost-teszt

Ez a jelenség jól illusztrálható azzal, hogy a CyberGhost VPN, bár nem hibátlan, sok területen meglepően jól teljesít az árához képest...

MA 11:19

A zsugorodó Nagy Sós-tó újabb porvihart szabadíthat el

A Utah-i Nagy Sós-tó zsugorodása miatt egyre súlyosabb porviharok sújtják Észak-Utah térségét, különösen a Wasatch Front mentén élőket...

MA 11:02

Nagyot vág az Anthropic a Claude Cowork extrák árából

Az Anthropic népszerű MI-alapú asszisztense, a Claude Cowork mostantól bárki számára elérhető havi 7 200 forintos (20 USD) előfizetéssel...

MA 10:57

A mélytengeri lejtők őrzik az ősi megaföldrengések nyomait

A Csendes-óceán északnyugati részének mélyén, a Cascadia szubdukciós zóna lejtőin a kutatók ősi, hatalmas földrengések nyomait tárták fel...

MA 10:50

Az epilepszia rejtett tettesei: zombisejtek az agyban?

👾 Világszerte közel 50 millió embert érint a temporális lebeny epilepszia (TLE) – most pedig egy meghökkentő fordulat révén új gyógymód körvonalazódik...

MA 10:41

A TikTok új őrülete: PineDrama

A TikTok csendben elindította legújabb alkalmazását, a PineDrama-t, amely elhozza a mikrodráma-sorozatok világát az Egyesült Államokba és Brazíliába...

MA 10:32

Az irtószerek alattomosan megrövidíthetik a halak életét

Már csekély mennyiségű mezőgazdasági növényvédőszer is képes komolyan csökkenteni a halak élettartamát – derült ki Jason Rohr, az indianai Notre Dame Egyetem biológusa által vezetett kutatásból...

MA 10:27

Az érinthetetlen hackeristen bukása: Finnország legmegrázóbb bűnügye

Fontos kérdés, hogy mennyire lehet védett az, amit pszichoterapeutánkkal osztunk meg...

MA 10:17

Az anyacápák titkos randevúja Maui bálnáktól hemzsegő vizein

Évekig rejtély volt, hogyan találkoznak párzás céljából a tigriscápák, hiszen általában magányos vándorok...

MA 10:01

Az Epic Games leszámol a szerencsekerékkel, de maradnak a loot boxok

A múlt héten komoly felháborodást váltott ki, amikor az Epic Games megengedte, hogy a Fortnite kreatív módjában egyes fejlesztők véletlenszerűen összeállított tárgycsomagokat – akár 4900 V-Bucksért, vagyis mintegy 13 000 forintért – kezdjenek árulni...

MA 09:59

Az MI által termelt szemétmunka elárasztja az irodákat – így fékezhető meg

Érdemes megérteni, hogy a generatív MI-eszközök terjedése nemcsak hatékonyabb munkavégzést eredményez, hanem egyre több helyen okoz úgynevezett munkaszennyet is...

MA 09:49

A Google ellen per: tényleg monopolizálta a keresést?

🔍 A Google újabb jogi csatába kezdett, miután 2024-ben a bíróság megállapította, hogy a cég monopóliumot tart fenn a webes keresés piacán...

MA 09:42

Az anyagi gondok egyre több főnök éjszakáját teszik tönkre

Érdekes felvetés, hogy a munkaadók egyre nagyobb része aggódik dolgozóik anyagi helyzete miatt, és egyre több cég próbál segíteni a mindennapi pénzügyi gondok enyhítésében...

MA 09:33

Az Interpol hajtóvadászatot indított a Black Basta vezére ellen

Nemzetközi körözési listára került a Black Basta zsarolóvírus-banda vezetője: az ukrán és német hatóságok szerint Oleg Evgenievich Nefedov, 35 éves orosz állampolgár áll a csoport élén...

MA 09:26

A krónikus sebek új esélye: áttörés az antibiotikum-rezisztencia ellen

Az antibiotikum-rezisztens fertőzések miatti gyógyulási kudarcok világszerte milliók életét nehezítik meg, különösen a cukorbetegek körében...

MA 09:16

A legnagyobb amerikai tengeri szélerőmű újraindul

Amerika legnagyobb tengeri szélerőmű-projektje ismét folytatódhat, miután egy szövetségi bíró feloldotta a Trump-adminisztráció által elrendelt leállítást...