Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján


Legfrissebb posztok

vasárnap 22:59

Be lehet tépni, ha valaki varangyot nyalogat?

A varangyok nyalogatása köré sok városi legenda szövődött, de valójában komoly veszélyekkel jár, és aligha vezet pszichedelikus élményhez...

MA 07:36

Sikerült megállítani a rák rejtett erőműveit, áttörést értek el

🎉 A Texas A&M Egyetem kutatócsapata forradalmi áttörést ért el az egyik legritkább és legagresszívebb gyermekkori veserák, a transzlokációs renális sejtes karcinóma (tRCC) elleni harcban...

MA 07:29

Az új YouTube-átverés: Tízezrek gépére jutott vírus

A Google több mint 3000 olyan YouTube-videót törölt, amelyek jelszólopó rosszindulatú programokat terjesztettek, hamisított szoftvereknek és játékcsalásoknak álcázva magukat...

MA 07:21

Az Apple és a Google uralma meginoghat a brit piacon

Az Apple-nek és a Google-nek át kell alakítania a mobilos működését az Egyesült Királyságban, miután a brit versenyhatóság, a Competition and Markets Authority (CMA) szigorúbb szabályozást javasol...



MA 07:14

Újabb leépítés az MI-óriásnál: a Meta 600 dolgozót küld el

A Meta újabb nagyszabású átszervezés keretében 600 alkalmazottat bocsát el MI-részlegéből...

MA 07:07

Ázsiai átverőközpontok miatt 2500 Starlinket kapcsoltak le

A SpaceX nemrég több mint 2500 Starlink műholdas internetkészüléket kapcsolt le Mianmarban, miután kiderült, hogy az eszközöket nagyszabású kibercsalásokhoz és emberkereskedelemhez használták fel...

MA 07:03

Újabb trópusi vihar veszélyezteti a karibi szigeteket

A Melissa trópusi vihar jelenleg a Karib-térség egyik leghosszabb ideje áradásoknak kitett területei fölött halad, és heves esőzésekkel, életveszélyes áradásokkal fenyeget több szigetet is...



csütörtök 22:59

Leépítési hullám sújtja az MI-labort a Metánál

📈 A Meta – a Facebook, az Instagram, a Threads, a Messenger és a WhatsApp anyavállalata – 600 dolgozótól válik meg új MI-laborjában...



csütörtök 22:29

Az új Snapchat MI-lencse mostantól ingyenes

📷 Amerikában mostantól minden Snapchat-felhasználó számára ingyenesen elérhető az Imagine lencse (Imagine Lens), a cég első, szabad szöveges utasítást értelmező, MI-alapú képgeneráló lencséje...

csütörtök 22:00

Az első Androidos XR-headset: itt a Samsung Galaxy XR

A Samsung bemutatta a Galaxy XR-t, az első olyan XR-headsetet, amely Androidon fut...



csütörtök 22:00

Hogyan menekültek meg ezrek a pompeii láva elől?

🌋 Közel 2000 évvel ezelőtt a Vezúv kitörése teljesen elpusztította Pompeii és Herculaneum városát; a lakókat és az épületeket izzó kő, hamu és gáz keveréke temette maga alá...



csütörtök 21:30

Az új Google kvantumchip átírja a káosz fizikáját?

A Google legújabb, Willow nevű kvantumchipje eddig soha nem látott részletességgel vizsgálta a kvantumkáoszt, amivel nemcsak a molekuláris kémia, hanem a fekete lyukak fizikájának új megértését is ígéri...



csütörtök 21:01

Az állami leállás veszélybe sodorhatja a rászoruló családokat

Milliók mindennapi élelmezése került veszélybe az Egyesült Államokban, mivel a kormányzati leállás következtében akadozik a legnagyobb élelmiszersegély-program, a SNAP (korábbi nevén Élelmiszerjegyek – Food Stamps) finanszírozása...

csütörtök 20:59

A mesterséges intelligencia forradalmasíthatja a tanulást

A felsőoktatásban egyre több professzor kísérletezik MI-alapú tanárbotokkal, hogy segítse a diákokat a nehezebb tantárgyak elsajátításában, különösen ott, ahol az egyéni odafigyelés gyakran lehetetlen...

csütörtök 20:30

Az igazi kvantumszámítógépek már a küszöbön állnak?

A Google szerint áttörést értek el, ami felgyorsíthatja a kvantumszámítógépek gyakorlati bevetését...



csütörtök 20:01

Az MI-cégek újabb rablása: A Reddit perli a Perplexityt

A Reddit ismét a bíróságon védi felhasználói adatait: most a Perplexity nevű MI-céget vádolja azzal, hogy jogtalanul gyűjtötte és használta a fórum posztjait saját MI-modellje fejlesztéséhez...



csütörtök 19:59

Az aszteroidák rejtőzködő óriása a Nap árnyékából

🌓 Egy újonnan felfedezett, 700 méter széles aszteroida sebességével és pályájával keltett izgalmat a csillagászok körében...

csütörtök 19:30

Az OpenAI böngészőjébe érkeznek a várva várt funkciók

Az OpenAI a napokban mutatta be új MI-alapú böngészőjét, a ChatGPT Atlast (ChatGPT Atlas), amelynek nem titkolt célja, hogy letaszítsa a Google Chrome-ot a trónról...



csütörtök 19:01

Az Alibaba beszáll az okosszemüveg-versenybe, és kihívja a ChatGPT-t

Az Alibaba hivatalosan is bemutatta első MI-alapú okosszemüvegét, a Quark AI Glasses-t, amelynek induló ára 4699 jüan, azaz nagyjából 240 000 forint...