Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 14:50

A Samsung új kihajtható OLED-je tarol – de kié lesz először?

🚀 A helyzet drámaian alakult a 2026-os CES-en, amikor a Samsung bemutatta a résmentes zsanérral és gyűrődésmentes, teljesen sima OLED-kijelzőjével szerelt prototípusát...

MA 14:33

Az agy titkos fegyvere: így lesz gyerekjáték a mozgás

Miért van az, hogy egy rövid futás után egyesek már lihegnek, míg mások szinte lebegnek a pályán?..

MA 13:50

A 10 perces edzés, amely már a rákos sejteket is megriaszthat

💪 Újév táján sokan vágnak bele edzésbe, pedig elegendő lehet napi 10 perc intenzív mozgás ahhoz, hogy jelentősen csökkentse a rák kialakulásának kockázatát...

MA 13:18

A grönlandi jégpajzs már egyszer eltűnt – megtörténhet megint?

A Grönland északnyugati részén fekvő Prudhoe Dome, ez az ötszáz méter vastag jégkupola, körülbelül hétezer évvel ezelőtt teljesen elolvadt, amikor a nyári hőmérséklet 3–6 Celsius-fokkal meghaladta a mainál mérteket – hasonló értékeket jósolnak 2100-ra is...

MA 12:34

Az űrállomásról rajtolhat az első űrbéli orvosi mentés

Az amerikai űrügynökség minden eddiginél komolyabb orvosi vészhelyzet elé nézhet: az egyik űrhajós a Nemzetközi Űrállomáson (ISS) váratlanul egészségügyi problémákat tapasztalt, ezért egy előre tervezett űrsétát elhalasztottak, és felmerült, hogy a legénység egy részét előbb kell hazahozni, mint ahogy eredetileg tervezték...

MA 12:02

Vége az álomnak: a Ballie sosem költözik be otthonainkba?

😪 Hat év fejlesztés és ígérgetés után a Samsung Ballie nevű otthoni robotja végleg eltűnt a vásárlók elől, és már csak belső céges projektté silányult...

MA 11:49

Az ifjú galaxisfürt, amely megrengeti a kozmológiai elméleteket

Különösen figyelemre méltó, hogy egy nemzetközi kutatócsoport olyan galaxisfürtöt azonosított, amely a feltételezettnél jóval korábban és jóval magasabb hőmérsékleten jelent meg az univerzumban, mint amit a mai elméletek megengednének...

MA 10:58

A meglepő ok, amiért jéghidegnek érezzük a vizet mentolos fogkrém után

👀 Külön említést érdemel, hogy sokan ismerik a pillanatot, amikor fogmosás után iszunk egy korty vizet, és az hirtelen jéghidegnek tűnik, sőt, a levegővétel is hűsítő élményt nyújt...

MA 10:50

A rendszeres mozgás felérhet a terápiával depresszió ellen

Világszerte több mint 280 millió embert érint a depresszió, amely komoly terhet ró az egészségügyre és az érintettekre...

MA 10:43

A Chase veszi át az Apple hitelkártyáját – jön a váltás

Az Apple Card felhasználók egyelőre nem fognak változást érzékelni, miután az Apple hivatalosan bejelentette, hogy a JPMorgan Chase váltja a Goldman Sachsot a hitelkártya-kibocsátójaként...

MA 10:36

A Ford MI-asszisztense új korszakot nyit az autózásban

Ford bejelentette, hogy hamarosan MI-asszisztenssel és továbbfejlesztett BlueCruise technológiával frissíti szolgáltatásait...

MA 10:29

A természet utolsó menedékei riasztó ütemben tűnnek el

🌳 A világ szárazföldi biodiverzitás szempontjából legfontosabb területeit, az úgynevezett „hotspotokat” egy új kutatás szerint súlyosan terheli az emberi földhasználat...

MA 10:22

A Disney+ belép a függőleges videók korszakába

Idén érkezik a Disney+ újítása: a függőleges videófolyam, amely a TikTok sikerét lovagolja meg...

MA 10:08

Az ultragyors UV-fény átírhatja a kommunikáció és a képalkotás szabályait

Továbbá megemlíthető, hogy a fotonikus technológiák, amelyek az ultraibolya (UV-C) tartományban (100–280 nm) működnek, már most kulcsszerepet játszanak számos területen, a szuperfelbontású mikroszkópiától az optikai kommunikációig...

MA 10:02

A Grok-bot botránya: kiskorúakat ábrázoló szexuális képek a sötét weben

Az internet biztonságáért küzdő szervezetek komoly figyelmeztetést adtak ki: az Elon Musk tulajdonában lévő Grok MI-chatbotot bűnözők használták fel gyermekekről készült szexuális képek létrehozásához...

MA 09:43

A Dell 52 colos, 6K-s óriása letarolja a piacot

A Dell bemutatta az UltraSharp 52 Thunderbolt Hub monitort, amely igazi óriás: 132 cm-es (52 hüvelykes) képátlójával és elképesztő 6K felbontásával jelenleg egyedülálló a világon...

MA 09:36

Az MI a Fordokba költözik – és ez már valóság

🚗 A Ford is beszáll az MI-alapú élményversenybe: 2026-tól a gyártó autóiban személyre szabott digitális asszisztens segíti majd a sofőrt és az utasokat...

MA 09:29

A trónról taszítva: zuhan a ChatGPT népszerűsége

ChatGPT piaci részesedése jelentősen visszaesett, miközben a Google Gemini egyre nagyobb teret hódít a weben...

MA 09:22

Az Apple-gépeken leálltak a Logitech appok – kitört a káosz

A Logitech Options+ és G HUB alkalmazások hirtelen működésképtelenné váltak Macen, miután egy lejárt tanúsítvány blokkolta az indításukat...