Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján


Legfrissebb posztok

vasárnap 22:59

Be lehet tépni, ha valaki varangyot nyalogat?

A varangyok nyalogatása köré sok városi legenda szövődött, de valójában komoly veszélyekkel jár, és aligha vezet pszichedelikus élményhez...



MA 10:07

Az újabb Microsoft-trükk: ideiglenes registry-hack az okoskártya-problémákra

🔑 A Microsoft az október 2025-ös Windows-frissítéssel több hibát is okozott, de a legkellemetlenebb következmény tudatos döntés eredménye: az okoskártyás hitelesítés szándékosan lett elrontva...

MA 10:01

Az olvadásnak ellenálló szuperötvözet forradalmasíthatja a hajtóműveket

Az iparban kulcsfontosságúak a magas hőmérsékletnek ellenálló fémek – gondoljunk csak a repülőgépmotorokra, gázturbinákra vagy akár a röntgenrendszerekre...

MA 09:57

Az ukrán segélyszervezetekre vadásznak hamis CAPTCHA-val

Egyetlen nap alatt próbáltak lecsapni ukrán kormányzati dolgozókra és a háborús segélymunkában fontos szervezetekre, köztük a Vöröskeresztre, az UNICEF-re és számos civil szervezetre...



MA 09:50

Az OpenAI felvásárolta a Mac automatizálás új ászát

Az OpenAI legújabb lépéseként felvásárolta a Software Applications Incorporated céget, amely korábban az iOS-en nagy sikert arató Workflows alkalmazást fejlesztette, mielőtt azt az Apple 2017-ben megvásárolta, és Parancsok (Shortcuts) néven fejlesztette tovább...



MA 09:44

Az algoritmusok titokban árat emelnek, amikor a mesterséges intelligencia önállóan drágít

💰 Az elmúlt évtizedben egyre több gazdasági területen jelentek meg a tanuló algoritmusok, amelyek folyamatosan és automatikusan alakítják az árakat a piac állapotához igazodva...

MA 09:36

Az európai űripar óriást épít: jön az űr-MI5?

Európa három legnagyobb űripari vállalata, az Airbus, a Leonardo és a Thales összefogott, hogy létrehozzanak egy egyesített űripari óriást...



MA 09:29

Az MI-oldalsáv trükkjei: komoly veszélyben a böngészők

Az OpenAI Atlas és a Perplexity Comet böngészőkben súlyos biztonsági résekre derült fény: egyes kártékony bővítmények képesek megtévesztő MI-oldalsávot megjeleníteni az eredeti felett, így a felhasználók veszélyes utasításokat követhetnek anélkül, hogy észrevennék a csalást...

MA 09:22

Az óriási Reddit-per: MI-cégek az aranybánya körül

💰 A Reddit pert indított a Perplexity nevű MI-cég, valamint három másik vállalat ellen, mert szerintük ezek ipari méretekben és jogtalanul gyűjtöttek össze több millió felhasználói hozzászólást kereskedelmi célból...



MA 09:16

Öt új alvásprofil segíthet felismerni a mentális betegségek előjeleit

Érdemes kiemelni, hogy a jó alvás nem csupán a mennyiségtől vagy az éjszaka zavartalanságától függ...



APP
MA 09:12

APPok, Amik Ingyenesek MA, 10/24

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Deflection Lite (iPhone/iPad)A Deflection Lite egy interaktív, gyors és pontos alkalmazás szerkezeti gerendák elemzésére...

MA 09:02

Az afrikai légiközlekedés még mindig vár a nagy áttörésre

Afrikában utazni még ma is igazi kihívás: a közvetlen országok közötti járatok aránya mindössze 20%...



MA 08:50

Lejtmenetben a Tesla: brutálisan visszaesett a profit

📈 A Tesla 2025 harmadik negyedévében 7,3 százalékkal több autót adott el, és tízezrével ürítette ki a készleteit...

MA 08:43

Samsung Galaxy XR és Meta Quest 3, melyik XR-sisak a jobb választás

🤖 A Samsung végre felkerült a VR-sisakok térképére, ráadásul rögtön egy igazi behemóttal...

MA 08:37

Az űr színes ködfoszlányai: 1 449 planetáris köd titkai

💫 Az eddigi legnagyobb felmérés során csaknem 1 500 planetáris ködöt vizsgáltak meg a Tejútrendszerben...



MA 08:29

Az egymilliárdos Tesla-robothadsereg mítosza

🤖 A Tesla vezérigazgatója, Elon Musk ismét furcsa kijelentéseket tett a vállalat 2025 harmadik negyedéves jelentésében: szerinte legalább 1 billió dollárnyi (hozzávetőleg 360 000 milliárd forintnyi) fizetési csomagra van szüksége ahhoz, hogy irányítása alatt tarthassa a Tesla „robothadseregét”...



MA 08:22

Az észak-koreai hackerek európai védelmi cégeket támadtak meg

Az észak-koreai Lazarus-csoport hackerei három európai védelmi vállalat rendszereit törték fel egy összehangolt akció során, amely a DreamJob (Álommunka) fedőnevet viselte...

MA 08:15

Az HP frissítése lekapcsolta a vállalati MI gépeket a felhőről

⚠ A HP egy hibás szoftverfrissítés miatt visszavonta a OneAgent alkalmazás legújabb verzióját Windows 11-re, miután kiderült, hogy a frissítés letörölte a Microsoft-tanúsítványokat, amelyek elengedhetetlenek a vállalati eszközök Microsoft Entra ID (korábbi Azure AD) hitelesítéséhez...

MA 08:08

Az új YouTube-eszköz fellép az MI-s deepfake videók ellen

A YouTube új frontot nyit az MI által generált deepfake videók ellen: mostantól lehetőségük van a tartalomkészítőknek saját hasonmásuk beazonosítására és jelentésére...