2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 11:19

A mesterséges intelligencia mindent lát rólad a munkahelyeden?

Az MI eddig háttérsegítőként működött az irodában: összegezte a megbeszéléseket, javaslatokat tett, válaszolt a kérdésekre...

MA 11:02

A mikroműanyag veszélybe sodorja az óceánok klímavédő szerepét

🌊 A mikroműanyagok mára nemcsak az élővilágot fenyegetik, hanem az óceánok globális éghajlatszabályozó szerepét is veszélybe sodorják...

MA 10:58

A RAM-válság elérte az okostelefonokat: tényleg jön a trükközés?

💻 Erre utal többek között az is, hogy az idei évben a RAM ára minden eddiginél magasabbra szökik, ami a teljes technológiai iparágra nagy hatással van...

MA 10:49

A NeurIPS 2025 legnagyobb MI-áttörései: innen indul a jövő

🚀 A mesterséges intelligencia fejlődése új irányt vett: már nem pusztán a modellek mérete számít, hanem sokkal inkább az architektúra, a tanítási dinamika és az értékelési stratégia határozza meg, milyen rendszerek születnek...

MA 10:41

A következő nagy dobás: nátriumion-akkuk és új űrállomások

2026-ban az áttörő technológiák új korszaka kezdődik. A nátriumion-akkumulátorokat már óriáscégek fejlesztik, és ezeket az olcsó, hőálló és hosszú élettartamú energiatárolókat hamarosan széles körben bevethetik...

MA 10:32

A világ kormányainak kedvenc kémprogramja a hibákból is tanul

A Predator nevű, kereskedelmi forgalomban kapható kémprogram új, fejlett képességeire derült fény a Jamf biztonsági kutatóinak vizsgálata nyomán...

MA 10:25

A kakukkfű titkos ereje a precíziós gyógyításban

🥀 A kakukkfűkivonatot régóta sokoldalú természetes gyógymódként tartják számon, jótékony hatása a benne található aktív összetevőkből – például a timol, karvakrol, rozmaringsav és kávésav – fakad...

MA 10:20

Vége az Atari Hotelnek Las Vegasban, csak Phoenix marad

🏨 Hat évvel azután, hogy bejelentették az Atari Hotel-hálózatot nyolc amerikai városban, a grandiózus tervek gyakorlatilag elolvadtak...

MA 10:01

Az ég új urai: lézerrel töltött drónok

🛰 PowerLight Technologies áttörő lézeres töltőrendszert mutatott be, amellyel a drónokat akár 2 km távolságból is vezeték nélkül lehet tölteni repülés közben...

MA 09:57

Az öngyilkos baktériumvédelem forradalma: megérkezett a SPARDA?

A baktériumok természetes védekezési rendszereit egyre jobban megismerik a kutatók, ennek köszönhetően akár forradalmi biotechnológiai eszközök is születhetnek...

MA 09:49

Az alternatív iOS appbolt rövidesen lehúzza a rolót

🔒 A Setapp Mobile alkalmazásbolt február 16-án végleg leáll. Ezzel minden felhasználó elveszíti a hozzáférését az ott megvásárolt vagy letöltött appokhoz, így aki eddig ezen keresztül használt alkalmazásokat, annak át kell mentenie minden fontos adatát, különben végleg elvesznek...

MA 09:41

A vég kezdete: 12 óra alatt feltörik az NTLM-jelszavakat

A Mandiant, a Google Cloud-hoz tartozó biztonsági cég, most közzétett egy új adatbázist, amellyel a Microsoft NTLMv1 algoritmusával védett rendszergazdai jelszavak akár 12 óra alatt feltörhetők, még otthoni hardveren is – nagyjából 210 ezer forintos (600 USD) gépen futtatva...

MA 09:25

Az elbűvölő békaugrás, amely visszahozza a Nintendo-klasszikusok hangulatát

Big Hops egy bájos 3D platformjáték, amelyben egy aranyos békát, Hopot irányítasz...

MA 09:18

Mi lapul a Föld alatt az űrben?

🌐 Ami kezdetben ártalmatlannak tűnt, hamar érdekes kozmikus gondolatkísérletté válik: vajon van-e bármi a Föld alatt az űrben?..

MA 09:10

Kié lesz az űr? Az űrbiznisz erkölcsi frontvonalai

Jeff Bezos, az Amazon és a Blue Origin alapítója néhány hónapja ismét reflektorfénybe kerülve jósolta meg, hogy hamarosan emberek milliói élhetnek majd az űrben – persze főként azért, mert ott akarnak élni, nem pedig dolgozni, hiszen a munkát addigra már költséghatékonyabb lesz robotokra bízni...

MA 09:02

A hatalom záloga Mezopotámiában: a nemi fluiditás

👑 Ebből következően érdemes megérteni, hogy négy és fél évezreddel ezelőtt Mezopotámiában a nemileg kétértelmű emberek rendkívül jelentős és befolyásos tagjai voltak a társadalomnak...

MA 08:59

Az ikonikus Gyűrűs-köd titokzatos vasrúdja új rejtélyt tár fel

Egy európai kutatócsoport váratlan felfedezést tett: a mindenki által ismert Gyűrűs-köd belsejében egy különös, rudat formázó felhő jelent meg, amely tisztán vasatomokból áll...

MA 08:49

Az év legcukibb cicás időjós kütyü: MI és e‑papír

Van, akinek az e-papír-kijelző egyenlő a saját időjárás-állomással – főleg, ha még macskák is kerülnek rá...

MA 08:41

A római fürdők sötét titka: ólom és mocsok

A friss kutatás szerint az ókori Pompeji első fürdőházában a vizet mindössze naponta egyszer cserélték, így a fürdőzők gyakorlatilag szennyezett, ólomszennyezett vízben áztak...