2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 08:49

Az AI Plus hódít Amerikában: végre megéri a Google-előfizetés?

A Google új előfizetési lehetőséget vezetett be az Egyesült Államokban azoknak, akik szeretnék kipróbálni a fejlett MI-eszközöket, de nem akarnak túl sokat fizetni...

MA 08:43

Az Apple Creator Studio előfizetése tényleg megéri?

Az Apple elindította régóta várt Creator Studio előfizetéses csomagját, amely egy sor népszerű professzionális alkalmazáshoz kínál hozzáférést fix havi vagy éves díjért...

MA 08:33

Az FBI lecsapott: vége a hackerek kedvenc RAMP-fórumának

🕵 Az amerikai hatóságok most komoly érvágást okoztak a zsarolóvírussal foglalkozó bűnözőknek: lefoglalták a RAMP nevű, hírhedt kiberbűnözői fórumnak mind a sötét webes, mind a hagyományos webes elérhetőségeit...

MA 08:26

Az FBI lecsapott: vége a bűnözők kedvenc piacterének

A RAMP, amely orosz nyelvű online piactérként vált ismertté a sötét weben, most az FBI és az amerikai igazságügyi minisztérium közös akciójának áldozatává vált – a hatóságok lefoglalták mind a sötét webes, mind a hagyományos elérhetőségeit...

MA 08:18

Az eScan frissítőszerverét feltörték: kártevőt terítettek

⚠ Érdemes megvizsgálni, miként veszélyeztethette világszerte számos eScan antivírus felhasználó biztonságát egy alig néhány órás incidens...

MA 08:02

Megmentheti az MI a Metát a bukástól?

🤔 Mark Zuckerberg bejelentette, hogy a következő hónapokban a Meta felhasználói új, fejlett MI-modellekkel és termékekkel találkozhatnak...

MA 07:58

Az OpenAI rakétára ülteti a Microsoftot, a befektetők mégis aggódnak

A Microsoft lenyűgöző számokat mutatott be legutóbbi jelentésében: a felhőüzletág negyedéves bevétele először lépte át az 51,5 milliárd dollárt (kb...

MA 07:49

Az Advantest száguld, az MI-chipek piaca őrült tempóra vált

🚀 A japán Advantest részvényei akár 14%-ot is emelkedtek csütörtökön, miután a vállalat minden eddiginél nagyobb negyedéves árbevételt jelentett, köszönhetően az MI-chipek tesztelőberendezései iránti robbanásszerű keresletnek...

MA 07:42

Az MI-katonák hamarosan elárasztják a közösségi médiát?

🤖 Felmerül a kérdés, hogy mennyire vagyunk felkészülve a következő generációs MI-hadviselésre az online térben...

MA 07:34

Az élet alapkövei a világűrből érkezhettek a Földre

Senki sem várta volna, hogy az élet alapvető összetevői az űrbéli porszemeken is kialakulhatnak, méghozzá teljesen maguktól...

MA 07:25

Az orosz hackerek újra támadnak: célkeresztben a lengyel áramhálózat

December végén összehangolt kibertámadás érte Lengyelország áramhálózatát, amely mintegy 30 különböző elosztott energetikai létesítményt célzott, köztük kapcsolt hő- és áramtermelő erőműveket, valamint szél- és napenergia-rendszereket...

MA 07:17

Az új Tesla: autógyárból robot- és MI-birodalom

🤖 A Tesla először veszteséggel zárta az évet az elektromosautó-piacon: a bevételek 3%-kal csökkentek 2025-ben, miközben a vállalat profitja az utolsó negyedévben 61%-kal esett vissza...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 1/29

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     TimesX Times Tables Tester (iPhone/iPad)A TimesX egy olyan alkalmazás, amely segít az általános iskolás gyerekeknek a szorzótábla gyakorlásában...

MA 07:10

Az évszázad legrejtélyesebb egyenlete új fényben

2026-ban éppen száz éve lesz annak, hogy Erwin Schrödinger megalkotta azt az egyenletet, amely alapjaiban változtatta meg a fizikáról alkotott képünket...

MA 07:01

Az újabb milliárdtemető: a Meta 7000 milliárdot égetett VR-re

A Meta tavaly 19,1 milliárd dollárt, azaz közel 7 ezer milliárd forintot veszített a VR-részlegén, a Reality Labsen...

MA 06:57

Az új Samsung AR-szemüveg már idén berobban

A Samsung hivatalosan megerősítette, hogy még idén bemutatja következő generációs AR-szemüvegét, amely multimodális MI-képességekkel lesz felszerelve...

MA 06:51

A hálózatokban bújik meg az évszázados hullámrejtély megoldása

📶 Ilyen eset például, amikor Joseph Fourier kétszáz évvel ezelőtt bevezette azt a zseniális elvet, hogy szinte bármilyen függvényt fel lehet bontani egyszerű hullámok összegére...

MA 06:42

Az OpenAI újabb 2800 milliárddal hizlalja a Microsoftot

A Microsoft a legutóbbi negyedévben 2800 milliárd forintos (7,6 milliárd dolláros) hasznot zsebelt be az OpenAI-befektetéséből...

MA 06:33

A statinok lehetnek az immunterápia kudarcának hiányzó láncszemei

💯 A rákimmunterápia lendületet adott az onkológiának, hiszen az immunrendszert tanítja meg a daganatok felismerésére és elpusztítására...

MA 06:26

Az óriási fémfelhő mögött második nap rejtőzhet a csillagrendszerben

☀ Egy rejtélyes, fémből álló óriásfelhő borzolta fel a csillagászok kedélyeit egy közeli csillagrendszerben...

MA 06:17

Az univerzum legősibb titkai: döbbenetes felfedezések a James Webb űrtávcsővel

🚀 Egy ragyogó galaxis, a MoM-z14 új fényt vet az univerzum kezdeteire...

MA 06:05

Történelmi események a mai napon (Január 29.)

Röviden: ezen a napon véget ért a Rásidún Kalifátus, megalakult az American League, Karl Benz levédette az első benzinüzemű autót, és Magyarország elsőként a keleti blokkból diplomáciai kapcsolatot létesített Dél-Koreával...

MA 06:02

Az amerikai álláskeresők padlón, a boomerek pánikban

Az Egyesült Államok munkavállalói soha nem érezték magukat ennyire bizonytalannak a munkaerőpiacon...

szerda 20:55

Az Apple tartja az árakat, pedig elszálltak a memóriaárak

💸 Az Apple mindent megtesz, hogy az iPhone 18 árában ne jelenjen meg a globális memóriahiány miatti drágulás...

szerda 20:38

Az amerikai atomenergia reneszánsza: 50 milliárd forintos beruházás a láthatáron

Az Egyesült Államok Energiaügyi Minisztériuma új kezdeményezést indít a nukleáris üzemanyag-ellátási lánc megerősítésére, miután a nukleáris energia iránti kereslet ismét megugrott – főleg az óriási energiaigényű, úgynevezett hiperskálerek adatközpontjai miatt...

szerda 20:20

Az MI megfejti az élet kódját a DNS-ben

A Google DeepMind új MI-modellje, az AlphaGenome alapjaiban változtathatja meg a DNS, vagyis az élet teljes receptjének értelmezését, és utat nyithat a betegségek megértésében és az új gyógyszerek felfedezésében...

szerda 20:01

Az új nanorészecskék áttörést hozhatnak a demencia elleni harcban

Egy forradalmi nanotechnológiai fejlesztés lehetővé teszi, hogy a szervezetből célzottan távolítsák el azokat a fehérjéket, amelyek például a demencia, illetve a daganatok kialakulásáért felelősek...

szerda 19:56

A lítiumion-akkuk veszélyes korszaka tényleg véget ér?

A nátrium-ion (Na-ion) akkumulátorok friss fejlesztései igazi áttörést jelenthetnek az energiatárolásban, és könnyen leválthatják a jelenleg uralkodó lítium-ion (Li-ion) akkumulátorokat...

szerda 19:18

Az Amazon-korszak leáldozott: 30 ezer UPS-állás veszélyben

A UPS újabb nagyszabású leépítést jelentett be: idén 30 ezer állás kerülhet veszélybe, ahogy a cég tovább csökkenti az együttműködését az egykori legnagyobb partnerével, az Amazonnal...