Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 20:49

A Linux nagy áttörése: ugrásszerűen nő a Steam-játékosok száma

Novemberben a Linuxot használó játékosok aránya új rekordot ért el a Steamen: elérte a 3,2%-ot, ami 0,15%-os növekedést jelent az előző hónaphoz képest...

MA 20:34

Az indiai Nagy Testvér mindent lát: nyilvántartanak minden okostelefont

👀 Megvizsgáljuk, hogyan tervezi India feltérképezni és nyilvántartani az ország összes okostelefonját, legyen szó új vagy használt készülékről...

MA 20:16

Jön a szigor: felezik az ingyenes tanúsítványok érvényességét

A Let’s Encrypt bejelentette, hogy 2028-ig felére, azaz 90 napról 45 napra rövidíti a kibocsátott tanúsítványainak érvényességi idejét...

MA 20:03

Az Amazon 36 millióért engedi személyre szabni a saját MI-modelleket

💰 Különösen említést érdemel, hogy az Amazon Web Services (AWS) mostantól lehetővé teszi a felhőalapú ügyfelek számára, hogy már a betanítási folyamat közben is testre szabják az MI-modelleket, saját adataikat beépítve...

MA 19:34

A MI jövőjének kulcsa az igazság, a szépség és a kíváncsiság?

Elon Musk ismét figyelmeztetett az MI jelentette veszélyekre, kiemelve, hogy a technológia gyors fejlődése miatt a jövő nem feltétlenül lesz pozitív...

MA 19:17

A Microsoft Defender összeomlása megbénította a fenyegetésvadászatot

🙁 Az elmúlt 10 órában részleges leállás bénította a Microsoft Defender XDR portált, több felhasználó számára elérhetetlenné téve a fenyegetésvadászatot és egyéb funkciókat...

MA 19:01

A város minden épülete 3D-ben – itt az új térkép!

A Müncheni Műszaki Egyetem kutatói a GlobalBuildingAtlas nevű projektben először készítették el a Föld összes épületéről készült, nagyfelbontású 3D-térképét...

MA 18:50

A menstruáció űrbeli forradalma: új megoldások hosszú küldetéseken

Az űrutazás emberi kihívásai túlmutatnak a technológián: az alapvető testi folyamatokat is újra kell gondolni a Földtől távol, legyen szó étkezésről, alvásról, vagy éppen a menstruációról...

MA 18:34

Az új Steam Machine megtöri a Valve hardverátkát?

Első pillantásra úgy tűnt, hogy a Steam Machine 2015-ös bevezetésével a Valve végre megoldja a PC-s játékok legnagyobb gondjait...

MA 18:17

Az év végi aduász: jön a Mortal Kombat 1 Game Passra

Decemberben a Game Pass kínálata igazi csemegéket tartogat. A legnagyobb durranás kétségtelenül a Mortal Kombat 1, amely december 10-től érhető el az Ultimate és Premium előfizetők számára...

MA 18:01

A halott csillagok rejtélye: feltámadnak a fehér törpék?

💫 Az univerzum egyik legérdekesebb jelensége a fehér törpék világa: ezek a csillagmaradványok akkor születnek, amikor egy csillag már nem termel energiát magfúzió útján...

MA 17:02

Az Antigravity bakija: eltűnt egy felhasználó teljes meghajtója

Külön említést érdemel, hogy egy újabb súlyos hiba miatt a Google Antigravity nevű MI-fejlesztőeszköze egy felhasználó teljes D: meghajtóját törölte, helyreállítási lehetőség nélkül...

MA 16:50

A YouTube új deepfake-rendőre: áldás vagy átok?

A YouTube új arcfelismerő eszköze, amely a feltöltők biometrikus adatait használja fel az MI-alapú deepfake videók azonosítására, komoly aggodalmakat váltott ki szakértők és tartalomgyártók körében...

MA 16:33

Az a merész jóslat, amely fél évszázadra formálta a chipeket

1964. december 2-án a San Francisco-öböl térségében egy szerény, szakmai találkozón Gordon Moore számítástechnikus letette a félvezetőipar alapjait: megszületett a ma már legendás Moore-törvény...

MA 16:18

A Luma AI meghódítja Londont

Az amerikai Luma AI, amelynek értéke már meghaladja az 1 470 milliárd forintot, nagyszabású londoni terjeszkedést jelentett be...

MA 16:01

Titkok a középkori angol seregről: 290 ezer sors online

Néhány éve még elképzelhetetlen volt, hogy bárki böngészhessen középkori angol katonák sorsaik között...

MA 15:50

Az Oracle-hack után újabb adatlopás rázza meg a Pennsylvaniai Egyetemet

A Pennsylvaniai Egyetem nemrég jelentette be, hogy támadók érzékeny személyes adatokat loptak el az Oracle E-Business Suite szervereiről...

MA 15:33

Az újabb csapás: Michael Burry szerint túlárazott a Tesla

Michael Burry, a híres befektető, aki a 2008-as nagy gazdasági válság idején shortolta az ingatlanpiacot, ezúttal a Teslát bírálja élesen...

MA 15:17

Az új kvantumanyag átírhatja az űrtechnológia szabályait

A Kaliforniai Egyetem irvine-i campusán (UC Irvine) egy kutatócsoport olyan eddig ismeretlen kvantumállapotot fedezett fel, amely akkor jön létre, amikor az elektronok és a pozitív töltésű, ún...