Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

kedd 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

MA 14:33

Az Adobe MI-őrülete bejött: szárnyal a cég

Az Adobe 2025-ben újabb rekordévet zárt, 8 400 milliárd forintos bevételt ért el, ami 11 százalékos növekedést jelent az előző évhez képest...

MA 14:18

A rejtélyes Trója titkai: egy új mozaik mindent átír

🌍 Kivételesen jó állapotban fennmaradt római kori mozaikot tártak fel Nagy-Britanniában, amely a trójai háború ábrázolásával lepte meg a kutatókat...

MA 14:02

Az óceán mélye rejtélyesen tünteti el a szenet

🌊 Különösen említést érdemel, hogy a legújabb kutatások alapjaiban rengetik meg eddigi tudásunkat arról, miként raktározódik a szén az óceánok sötét mélységeiben...

MA 13:49

Az áradások árnyékában: Ázsia jövője a klímaváltozás markában

Az elmúlt hónapban Indonéziát és Srí Lankát sújtó két trópusi vihar összesen közel 1600 ember életét követelték, miután hatalmas esőzéseket és földcsuszamlásokat okoztak...

MA 13:01

Az MI és a robotika új korszakot hoz a brit kutatólaborokban

A Google DeepMind jövőre megnyitja első automatizált kutatólaborját az Egyesült Királyságban, ahol MI-t és robotikát vetnek be a kísérletekhez...

MA 12:34

Az Adobe Photoshop mostantól ingyen használható a ChatGPT-ben

Érdemes megérteni: forradalmi változás történt. Az Adobe legnépszerűbb kreatív és produktivitási alkalmazásai, köztük a Photoshop, az Express és az Acrobat, mostantól közvetlenül elérhetők a ChatGPT-ben...

MA 12:17

Az eltűnt Mars-szonda rejtélye: a NASA tanácstalan

A NASA váratlanul elveszítette a kapcsolatot a Maven nevű űrszondával, amely már több mint tíz éve kering a Mars körül...

MA 12:01

Az életmentő Mars-szonda leállt: bajban a NASA

A NASA egyik kulcsfontosságú marsi műholdja, a MAVEN, december 6-án váratlanul elnémult, amikor a Mars túlsó oldalán járt – azon az oldalon, amelyik nem néz a Föld felé...

MA 11:49

Az Apple TV és az Apple Music egyszerre omlott össze

Délután néhány felhasználó számára elérhetetlenné váltak az Apple Music és az Apple TV, ráadásul az Apple TV Channels funkciója sem működött...

MA 11:33

Az új Teams riaszt, ha gyanús a külső forgalom

A Microsoft egy friss biztonsági funkción dolgozik a Teamsben, amely képes elemezni a gyanús forgalmat külső domainekkel, ezzel segítve az IT-adminisztrátorokat a potenciális biztonsági kockázatok kiszűrésében...

MA 11:17

A DroidLock lecsap: androidos telefonokat zárol, váltságdíjat követel

Egy frissen felfedezett androidos kártevő, a DroidLock zárolja az áldozatok készülékeit, miközben az SMS-ekhez, híváslistákhoz, névjegyekhez, hangfelvételekhez is hozzáfér, sőt, akár törölheti is az adatokat...

MA 11:01

Az Nvidia tényleg a saját chipjei után kémkedik?

Az Nvidia új szoftveres megoldáson dolgozik, amellyel ellenőrizheti, pontosan melyik országban vannak az MI-chipjei – nem véletlenül, mivel egyre többen vádolják a céget azzal, hogy processzorait Kínába csempészik...

MA 10:57

Az SK Hynix amerikai hódításra készül az MI-őrület csúcsán

👑 A dél-koreai SK Hynix, amely az Nvidia legnagyobb memóriagyártó beszállítója, komolyan fontolgatja, hogy tőzsdére lép az Egyesült Államokban...

MA 10:50

Az űr csendje lecsapott: megszakadt a kapcsolat a MAVEN-nel a Marsnál

A NASA elveszítette a kapcsolatot a Mars körül keringő MAVEN szondával, miután az a bolygó mögé került, és visszatérése után sem sikerült újra elérni...

MA 10:44

Az űripar aranyláza: a SpaceX tőzsdére lép

🚀 A SpaceX évekig elutasította a tőzsdei bevezetést, most azonban mégis IPO-ra készül – és ez óriási változás Elon Musk gondolkodásában...

MA 10:37

Az űr az új adatközpont, és már mindenki oda tart

A technológiai cégek versenyt futnak, hogy az első adatközpontokat az űrbe telepítsék...

MA 10:22

Az Oracle önti a pénzt, az MI aggasztja a befektetőket

💸 Az Oracle jelentősen megemelte a mesterséges intelligenciához kapcsolódó jövőbeli kiadásait: a 2026-os pénzügyi évben 15 milliárd dollárral többet tervez befektetni a felhőinfrastruktúrába, mint korábban becsülték...

MA 10:02

Az őseink már 400 ezer éve tüzet gyújtottak

A modern ember számára magától értetődő, hogy egy gyufa vagy egy öngyújtó segítségével könnyedén tüzet varázsolhat, őseinknek azonban kemény küzdelem árán kellett ezt a tudást elsajátítaniuk...