2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 08:22

A Google végre lép: mindennapossá válnak az MI‑videók

Jellemző példa erre, hogy amíg az OpenAI visszavonulót fúj a Sora MI‑videóplatformjával, a Google épp most emeli új szintre a böngészőből elérhető Google Vids szolgáltatását...

MA 08:08

A maradék zsemlemorzsa lehet a jövő hidrogénforrása?

🥖 A mindennapi élelmiszerhulladék, például a zsemlemorzsa, új szerephez juthat a vegyiparban: brit kutatók áttörő eljárást fejlesztettek ki, amellyel ebből a hulladékból hidrogént lehet előállítani...

MA 08:01

Az új HP Z8 Fury: a PC-k koronázatlan királya

A HP legújabb erőgépe, a Z8 Fury G6i letarolja a munkaállomás‑piacot, ha valaki komoly MI‑ vagy szimulációs munkákhoz keres kompromisszumok nélküli számítási teljesítményt...

MA 07:57

Az ősi mágneses káosz titkát végre megfejtették

🔮 Földünk mintegy 630 és 540 millió évvel ezelőtti Ediacara-időszaka az egyik legrejtélyesebb periódusnak számít a bolygó mágneses múltjának kutatásában...

MA 07:50

Az észak-koreai hekkerek kirabolták a Driftet – 100 milliárd forint a kár

Tipikus eset, amikor a kriptovilág védelmi rendszerei csődöt mondanak: a Drift Protocolból 280 millió dollár, azaz mintegy 100 milliárd forint tűnt el egy profi kibertámadás során, miután a támadók megszerezték a Security Council adminisztrátori jogait...

MA 07:36

Az üres ingatlanok aranykora: így zsákmányolják ki a postát a csalók

🔒 A kibercsalás világa már túlmutat a klasszikus hekkereken és vírusokon: az elmúlt években egyre többen használnak ki jogos szolgáltatásokat, példa erre az üresen álló otthonok postai címének lenyúlása...

MA 07:29

Az új lézeres hálózat feleannyi energiából viszi a netet

€ optic;📺 Vizsgálják, képes-e a vezeték nélküli technológia forradalmi újítása nagyságrendekkel gyorsabb internetet biztosítani minimális energiafogyasztással...

MA 07:22

A ropogósabb, diétásabb hasábburgonya titka: a mikrohullámú sütő

Forradalmi eljárás született, amellyel sokkal egészségesebbé válhat a kedvenc hasábburgonyánk. Amerikai kutatók olyan technikát fejlesztettek ki, amely ötvözi a hagyományos olajban sütést a mikrohullámú sütő alkalmazásával...

MA 07:17

Itt a Gemma 4: végre egy valóban nyílt Google-modell

🚀 A Google alaposan felforgatta az MI-modellek piacát: a Gemma 4 család immár Apache 2...

MA 07:08

Az FBI újabb blamája: kínai hackerek ismét lecsaptak

Az FBI szerint kínai hackerek betörtek egy kormányzati megfigyelőrendszerbe, amely érzékeny, belföldi rendvédelmi adatokhoz biztosított hozzáférést...

MA 07:01

A Garmin bedobja magát: okosóra a női egészségért

Mostantól a Garmin női felhasználói lazán felveszik a versenyt az Apple-lel és az Oura-val, ugyanis a legfrissebb frissítéssel bekapcsolódott a Natural Cycles-integrációba...

MA 07:00

Az MI-óriás Mercor adatvesztése: Ellopható a jövőnk?

Tipikus eset, amikor egy ígéretes techvállalkozást éppen felfelé ívelő pályáján ér kiberbűnözői támadás...

MA 06:50

Az éleslátás jövője: forradalmi módszer óvhatja a szemed

👀 A kutatók áttörést értek el az éleslátásért felelős sejtek védelmében: több mint 2 700 vegyületet vizsgáltak laborban növesztett emberi ideghártya-modelleken, és olyan anyagokat találtak, amelyek képesek megelőzni a színek és arcok felismeréséért felelős csap-receptorok pusztulását...

MA 06:44

Az energiaegyenleg durván felborult: Csődöt mondtak a klímamodellek?

Ez a jelenség jól illusztrálható azzal, hogy a Föld egyre több energiát nyel el a Napból, mint amennyit képes visszasugározni az űrbe, és ez a különbség – az úgynevezett energiaegyensúlyi zavar – minden eddigi elképzelést felülmúl...

MA 06:36

Az OpenAI beköltözteti a ChatGPT-t az autódba – Siri, reszkess!

Na most kapaszkodj, mert már az autóban is cseverészhetsz a ChatGPT-vel!..

MA 06:29

Az új fogyasztótabletták: indul a nagy GLP–1-verseny

💪 Az elhízás elleni gyógyszerpiacon új korszak kezdődött: az FDA engedélyezte a második GLP-1‑alapú tablettát, amely Foundayo néven kerül piacra...

MA 06:21

Az ősi kínai leletek átírják az állatok evolúcióját

Lényeges szempont, hogy Kína déli részén, Jünnan tartományban több száz, szinte földönkívülinek tűnő ősmaradvány került elő; ezek átírják elképzelésünket a Földön zajló életfejlődésről...

MA 06:16

A szuverenitás nagy áttörése az MI-válság után: megérkezett a Trinity

Az Arcee MI új, nyílt forráskódú Trinity-Large-Thinking modellje ritka kivétel az amerikai MI-modellek között: letölthető, tetszés szerint testre szabható, és szabadon használható a legnagyobb vállalatok vagy független fejlesztők számára...

MA 06:08

Az Amazon űrháborút hirdet a Starlink ellen

Az Amazon éppen tárgyalásokat folytat a műholdas távközlési piacon jelentős szereplőnek számító Globalstar felvásárlásáról...

MA 06:05

Történelmi események a mai napon (Április 3.)

Rövid történelmi körkép: ezen a napon elfoglalták Richmondot az Amerikai polgárháborúban, Sztálin lett a Szovjetunió Kommunista Pártjának főtitkára, Martin Luther King Jr...

csütörtök 21:56

Az X szigorít: zárolás vár az első kriptós posztolókra

Elon Musk közösségi oldala, az X újabb lépést tesz a kriptós átverések visszaszorítására...

csütörtök 21:46

A netes tévézés trónjáért: YouTube TV vagy Hulu + Live TV?

A kábeltévéről való lemondás sosem volt egyszerűbb, mint ma, a YouTube TV és a Hulu Plus Live TV kínálatával...

csütörtök 21:34

A Google Vids megérkezett: ingyenes videók egy kattintással

A minőségi videók készítése korábban bonyolult technikát, költséges felszerelést és órákig tartó utómunkát igényelt...

csütörtök 21:23

Az Android lehagyja az iOS-t az értesítések kezelésében

Az Android eddig is sokkal hatékonyabban kezelte az értesítéseket, mint az iOS, ami nemcsak az alkalmazások újításaiban, hanem a testreszabási lehetőségekben is megmutatkozik...

csütörtök 21:11

A linuxos Steam átlépte az 5%-ot – Végre indul a játék?

Márciusban hatalmasat ugrott a linuxos játékosok aránya a Steamen: végre sikerült átlépni az eddig soha el nem ért 5%-os küszöböt...

csütörtök 20:56

Az energiaforradalom küszöbén: Leállíthatjuk a fosszilis korszakot?

A globális villamosenergia-rendszer nagy fordulóponthoz érkezett: 2025 végére a megújuló energiaforrások a teljes elektromos kapacitás közel felét adták világszerte, elsősorban a napenergia robbanásszerű növekedésének köszönhetően...

csütörtök 20:45

Az új Gemma 4: MI mindenkinek a zsebében

📱 A Gemma 4 család bevezetésével a Google új szintre emeli a nyílt forráskódú nagy nyelvi modellek világát...

csütörtök 20:35

A japán módszer, amellyel évekkel tovább élhetsz

A hara hachi bu japán szokás, amely azt tanítja, hogy érdemes abbahagyni az evést, amikor már nagyjából 80%-ig jóllaktunk...

csütörtök 20:23

Az Alexa Plus mostantól ételt rendel helyetted – de nem mindegy, mivel

Beszédes asszisztens, gyors rendelés Az új Alexa Plus már képes az Uber Eats és a Grubhub felületein keresztül ételt rendelni, ehhez azonban a megfelelő eszközre lesz szükséged...