2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 09:01

Az első mini Sphere Marylandbe jön – indul a megújulás

A Las Vegasban bemutatott látványos Sphere interaktív szórakozóhely mintájára most Maryland is saját gömböt kaphat...

MA 08:58

Az első emberes holdküldetés 50 év után: új korszak, régi kihívások

A floridai Kennedy Űrközpontban hétvégén megkezdődött az emberes Hold-misszió, az Artemis II rakétájának indítóállásra gurítása...

MA 08:42

Az Asus elengedi a mobilokat, mindent az MI-re tesz

🤖 Érdemes megvizsgálni, miért döntött az Asus úgy, hogy határozatlan időre felfüggeszti okostelefonos üzletágát...

MA 08:33

Az agy titkos kapcsolója: új áttörés a mentális zavarok ellen?

A Johns Hopkins Egyetem kutatói váratlan felfedezésre jutottak az agy működésében: eddig passzívnak hitt fehérjék, az úgynevezett GluD-k (delta-típusú ionotróp glutamát receptorok) valójában aktív szereplők az idegsejtek közötti kommunikációban és kapcsolatok kialakításában...

MA 08:26

Íme a 27 éve mindent túlélő ragadozó féreg

Kevesen gondolnák, hogy a tengerekben élő zsinórférgek igazi matuzsálemek lehetnek. Az amerikai William & Mary Egyetem tengerbiológus oktatója, Jon Allen évek óta minden tanévet azzal kezd, hogy óvatosan kiválogatja a ragadozó tengeri csillagokat és anemónákat az akváriumból, majd előkeresi a közel egy méter hosszú zsinórférget, akit egyszerűen csak A Legidősebb Baseodiscus (Baseodiscus the Eldest) néven...

MA 08:18

A cápatámadások új hulláma rettegésben tartja Ausztrália partjait

🔻 Egy 39 éves szörföst mart mellkason egy cápa az ausztráliai Új-Dél-Wales északi partján, ezzel 48 órán belül már a negyedik cápatámadás történt a térségben...

MA 08:02

Az új Trump-tarifák felkavarhatják a Bitcoin árfolyamát

💸 A Bitcoin árfolyama hétfőn 93 000 dollár (kb. 33,8 millió forint) felett stabilizálódott, miután Donald Trump amerikai elnök új vámokat helyezett kilátásba Dániával és több európai országgal szemben – a Grönlanddal kapcsolatos vita miatt...

MA 07:58

Az M5-ös MacBook Pro a vártnál sokkal hamarabb befuthat

💻 A legerősebb MacBook Pro gépekre várók tavaly csalódhattak, hiszen az Apple kihagyta a nagyobb teljesítményű M4 Pro és M4 Max modellek frissítését...

MA 07:49

Az Intune-váltás mindent felkavarhat a mobilokon

Ma minden rendszergazda figyelmére szükség van, aki Microsoft Intune-nal menedzsel mobilokat, különben kritikus alkalmazások – akár a Microsoft sajátjai – is leállhatnak...

MA 07:42

A sötét anyag rejtélyes önösszeomlása

🧘 Az utóbbi években a sötét anyag rejtélye egyre jobban foglalkoztatja a csillagászokat és fizikusokat, hiszen már közel egy évszázada nem találták meg e titokzatos komponens pontos magyarázatát...

MA 07:34

A TRENDnet olcsó 10G-s switche, ami felkavarja a piacot

📈 Érdemes megvizsgálni, hogy a gyors 10GbE hálózatok elterjedése miatt mennyire éri meg beruházni egy elérhető árú, menedzselhető switchre...

MA 07:27

Az OpenAI-perből kaszálna Musk 49–83 ezermilliárdot?

Érdekes felvetés, hogy Elon Musk akár 83 ezer milliárd forintot követel az OpenAI-tól és a Microsofttól, arra hivatkozva, hogy a két cég feladta nonprofit küldetését, ezzel csorbítva Musk hozzájárulásának értékét...

MA 07:18

Az Ethereumon dübörög – vagy csak egy csalás fűti?

Az Ethereum-hálózaton rekordot döntött az on-chain tranzakciók száma, de az árfolyam látványosan nem tud lépést tartani ezzel az aktivitással...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 1/20

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Ski Tracks (iPhone/iPad)A Ski Tracks egy GPS-alapú alkalmazás, amely síeléshez, snowboardozáshoz és téli hegyi kirándulásokhoz készült...

MA 07:10

A legjobb WhatsApp-alternatívák Androidra: melyik lesz a kedvenced?

Ami kezdetben ártalmatlannak tűnt, mára jelentős kérdéssé vált: muszáj-e mindenkinek a WhatsApphoz kötődnie?..

MA 07:01

Az NFT-k visszavágnak: a milliomosok pörgetik a piacot

2021–22 óta jelentősen visszaesett az NFT-k, vagyis a nem helyettesíthető tokenek forgalma, de a piac korántsem halott...

MA 06:49

A legújabb Windows-kártevő lecsap, veszélyben a pénzügyi óriás

⚠ A legnagyobb pénzügyi cégek sem érezhetik magukat biztonságban: egy Fortune 100-as vállalat hálózatán olyan új Windows-malware jelent meg, amely PDFSider néven terjed...

MA 06:41

Az új Marathon végre itt van: márciusban robban be

A Bungie március 5-én dobja piacra az új Marathon játékot, amely 14 000 forintért lesz elérhető Xbox Series X|S-en, PS5-ön és PC-n...

MA 06:33

Az alumínium whiskypalack érkezik: vége az üveguralomnak?

Skócia egyik legkisebb lepárlója, a Stirling Distillery, összefogott a Heriot-Watt Egyetem tudósaival, hogy utánajárjanak: vajon az alumíniumot lehet-e üvegpalack helyett használni a skót whisky tárolására?..