Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

csütörtök 06:42

Az igazi Múmia visszatér: Fraser és Weisz újra együtt

🎬 Megint feltámad A múmia (The Mummy) filmsorozat, mégpedig a rajongók kedvenc párosával: Brendan Fraser és Rachel Weisz ismét visszatérnek a következő részben...

szombat 11:39

Mindent a Queen’s English-ről! Először is, ilyen nem létezik

A “Queen’s English” kifejezés sokak számára az angol nyelv leghelyesebb, legtisztább változatát jelenti...

MA 06:42

Az Amazonas visszahódítása: most a Google is beszáll

A Google újabb lépést tett a klímavédelemért: jelentős mennyiségű szén-dioxid-kompenzációs kreditet vásárol egy brazil erdő-helyreállítási projekttől...

MA 06:36

Az óceán mélyének bányászata tönkreteheti a tengeri táplálékláncot

💧 A mélytengeri bányászat egyre több ország számára tűnik vonzó megoldásnak az energiaátmenethez szükséges ásványok, például a réz, a vas és a cink kinyerésére, holott a legfrissebb kutatások szerint ennek súlyos következményei lehetnek a tengeri élővilág szempontjából – és ez a halászati ágazatot, végső soron pedig a mi tányérunkat is érinti...

MA 06:30

Zsebre vágható tisztaság: FOMIN papír szappanlapok

A FOMIN antibakteriális papír szappanlap igazán praktikus megoldás kézmosáshoz útközben, legyen szó kirándulásról, táborozásról, vagy családi utazásról...

MA 06:30

A baobab, az élet fájának titkos szövetségesei Afrikában

A baobabokat gyakran nevezik fejjel lefelé álló fáknak, mert vaskos ágaik gyökérszerűen nyúlnak az ég felé...

MA 06:21

Az OpenAI elképesztő összegeket szán adatközpontokra

💰 Sam Altman, az OpenAI vezérigazgatója szerint a cég évesített bevétele idén meghaladja a 20 milliárd dollárt (USD), azaz közel 7200 milliárd forintot, és már mintegy 500 000 milliárd forintos, vagyis 1,4 billió dolláros adatközpont-beruházási kötelezettségük van a következő nyolc évre...

MA 06:15

Az utolsó védvonal: Már növekszik a világ legritkább delfinpopulációja

🐬 Évtizedek óta először nőtt a kihalás szélén álló vaquita-populáció létszáma a Kaliforniai-öböl északi részén...

MA 06:09

Az MI-reklámok rémisztő mosolya elriasztja a vevőket

Ahogy az MI által generált videóreklámok egyre elterjedtebbé és olcsóbbá válnak, egyre szembetűnőbb, hogy a bennük szereplő emberek és környezetek valahogy túlságosan tökéletesek, ugyanakkor zavaróan élettelenek...

MA 06:01

Az olcsó MI lehet a Pinterest titkos fegyvere

💡 Az idei év nehézségei ellenére a Pinterest a nyílt forráskódú MI-ben látja a kiutat, amellyel jelentősen csökkentheti a költségeit, miközben bővíti vizuális MI-megoldásait...

csütörtök 20:52

Az új kvantumszámítógép felülmúlja az összes eddigit

🚀 A Quantinuum tudósai bemutatták a Helios nevű kvantumszámítógépet, amely jelenleg a világ legerősebb ilyen gépe...

csütörtök 20:41

Az idegen bolygók légkörét most már 3D-ben is látjuk

🔬 A James Webb-űrteleszkóp és az úgynevezett „eclipse mapping” technika segítségével először sikerült elkészíteni egy távoli bolygó, a WASP–18b légkörének háromdimenziós térképét...

csütörtök 20:32

Minnesotában az iskolák küzdenek a diákok mentális egészségéért

Minnesota iskoláiban egyre súlyosabb a diákok mentális egészségügyi válsága, miközben az intézmények egyre szűkösebb erőforrásokból kénytelenek gazdálkodni...

csütörtök 20:11

Az egyszerűbb hibajavítás forradalmasíthatja a kvantumszámítógépeket

A Quantinuum bemutatta harmadik generációs kvantumszámítógépét, a Heliost, amely jelentősen megnövelt számítási teljesítményt és hatékonyabb hibajavítást kínál...

csütörtök 20:01

Az Epic és a Google békét kötött: Megújul az Android!

Az Epic Games, a Fortnite fejlesztője, és a Google végre lezárták évek óta húzódó jogi csatájukat, amely alapjaiban változtatja meg az Android működését...

csütörtök 19:51

Az életveszélyes CentOS Web Panel hiba: most mindenkit fenyeget

⚠ Az Amerikai Kiberbiztonsági és Infrastruktúra-biztonsági Ügynökség (CISA) figyelmeztetést adott ki egy kritikus sebezhetőség miatt, amelyet aktívan ki is használnak a CentOS Web Panel (CWP) felhasználói körében...

csütörtök 19:21

Az MI most a fotóidból választ neked partnert a Tinderen

A Tinder egy új, MI-alapú funkciót tesztel, amely a telefonod fényképei alapján próbál még jobb partnereket találni számodra...

csütörtök 19:01

Újabb SonicWall-botrány: állami hackerek törtek be

🔒 Szeptemberben a hálózatbiztonsággal foglalkozó SonicWallt komoly támadás érte, amely során államilag támogatott hackerek szereztek jogosulatlan hozzáférést bizonyos ügyfelek tűzfal-konfigurációs mentési fájljaihoz...

csütörtök 18:51

Az új Windows 11-es Store tényleg leveszi a terhet a felhasználókról

😎 A Windows 11 felhasználói mostantól egyszerre több alkalmazást is telepíthetnek a Microsoft Store webes felületéről, ugyanis megérkezett a régóta várt tömeges telepítési funkció...