Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 18:24

Penrose szám: A bizonyíték Isten létére?

Sir Roger Penrose brit matematikus és elméleti fizikus, aki a fekete lyukak szingularitásának és az általános relativitáselmélet új matematikai alapjainak feltárásáért kapott Nobel-díjat, az 1970-es években sokkoló, a tudományos világot megosztó tézist közölt...

MA 19:33

Az első marsi villámlás hangja: így füleltek a kutatók

🔉 A NASA Perseverance marsjárója váratlan felfedezést tett: sikerült rögzítenie a villámláshoz hasonló elektromos kisülések sercegő hangját a Mars felszínén...

MA 19:17

A félvezetőiparban titkos háború dúl az Intel és a TSMC között

A világ egyik legfejlettebb chipgyártója, a tajvani TSMC súlyos vádakat fogalmazott meg korábbi vezetője, Wei-Jen Lo ellen, aki szerintük titkokat szivárogtathatott ki az Intel számára...

MA 19:02

Az ICANN végre kilép az afrikai internetforradalom árnyékából

Az ICANN, az internetcímek és -nevek felügyeletével megbízott globális szervezet, kénytelen volt magyarázkodni amiatt, hogy finanszírozta az afrikai CAIGA nevű új internetirányítási kezdeményezést, amely radikálisan átalakítaná az afrikai online világ szabályozását, és nagyobb szerepet adna az államoknak...

MA 18:18

Az első MI-vezérelt kibertámadás: szintet léptek a kínai hackerek

Új korszak kezdődhet a kibervédelemben: egy kínai állami hátterű hackercsoport a Claude nevű MI-t vetette be, hogy szinte teljesen automatizálja egy átfogó kibertámadás lebonyolítását...

MA 18:02

Az olasz UFO-felhő már megint ráhozza a frászt a helyiekre

Egy lenyűgöző fotó készült az észak-olaszországi Possagno fölött, ahol ismét megjelent az a furcsa, UFO-szerű vörös fénygyűrű, amely már két és fél évvel ezelőtt is lázba hozta a lakókat...

MA 17:50

A fiúkat magukra hagyták: hol vannak a férfi mentorok?

Az amerikai fiúk és fiatal férfiak túlnyomó többsége ma elvileg hozzáfér felnőtt mentorokhoz, ám a mindennapi életben gyakran hiányoznak a férfi példaképek...

MA 17:33

Az Alibaba okosszemüvege is beszállt az MI-háborúba

👓 Az Alibaba piacra dobta legújabb MI-alapú okosszemüvegét, amellyel keményen bejelentkezik a fogyasztói MI-eszközök piacán...

MA 17:17

Az OpenAI is adatbiztonsági botrányba keveredett

🔒 Az OpenAI nemrég értesítette néhány ChatGPT API-felhasználóját, hogy egy harmadik fél, a Mixpanel elemző platformján keresztül illetéktelenek korlátozott azonosító adatokat szereztek meg...

MA 17:01

Az IPTV-razzia után tévé nélkül maradt a környék

A görög kiberbűnözés elleni egység látványos akciót hajtott végre Santorinin, miután új jogi keretrendszer lépett életbe az online szerzői jogsértések visszaszorítására...

MA 16:50

A műanyagszennyezés és a klímaválság: kettős támadás bolygónk ellen

🌍 Tipikus példa arra, amikor két ökológiai válság kéz a kézben sújtja bolygónkat: a műanyagszennyezés és a klímaváltozás hatásai együtt olyan problémákat okoznak, amelyek hatása messze túlmutat a szemmel látható szemetelésen...

MA 16:33

A Vénusz-templom örök szilárdságának titka: páratlan anyagok

🏛 A nápolyi Vénusz-templom közel kétezer éve fennáll, miközben a földfelszín alatta folyamatosan süllyedt a vulkáni tevékenység miatt...

MA 16:17

Az egyik legnépszerűbb JavaScript-titkosító könyvtár kritikus sebezhetést foltoz

Egy komoly biztonsági hibát fedeztek fel a node-forge nevű JavaScript-titkosítási könyvtárban, amely világszerte rendkívül népszerű a fejlesztők körében...

MA 15:34

Az RNS, amely önmagát rendezi: lefilmezték a ribozim önszerveződését

Az RNS (ribonukleinsav) alapvető szerepet tölt be az élővilágban, mára pedig a gyógyászatban és a nanotechnológiában is nélkülözhetetlenné vált...

MA 15:17

A titokháború az Intel sztárigazolása körül robbant ki

A TSMC beperelte korábbi csúcsmérnökét, Wei-Jen Lo-t, miután a szakember az Intelhez igazolt...

MA 15:02

Az Apple TV törölte A Vadászatot botrányos plágiumvád miatt

Az Apple TV hirtelen eltüntette A Vadászat (The Hunt) című francia sorozatot kínálatából, miután felmerült a gyanú, hogy a történet egy 1974-ben megjelent regényt, a Lövést (Shoot) másolhatja...

MA 14:51

Az emberi értelem: sorsszerű fejlődés vagy kozmikus véletlen?

Az emberi tudat létezése mindig is lenyűgözte és elgondolkodtatta a tudósokat...

MA 14:35

Az élet genetikai tánca: feltárták az RNS‑polimeráz rejtett szabályait

🕸 Az élet működésének kulcsa a DNS-ben rejlik, de ezt a kódot az RNS-polimeráz II (Pol II) olvassa fel: ő az, aki az eukarióta sejtekben az RNS-t írja át, és végül így születnek meg a fehérjék...

MA 14:17

Az Apple letaszította a Samsungot: az iPhone ül a trónon

Az Apple idén először letaszítja a Samsungot az okostelefon-eladások világranglistájának éléről, miután 2011 óta a koreai gyártó uralta a piacot...