2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

péntek 21:56

A tűzveszély miatt ismét visszahívják a külső mobilakkukat

A Casely ismét visszahívja az 5000 mAh-s MagSafe Power Podokat, miután újabb eseteket jelentettek túlmelegedésről és tűzesetekről...

péntek 21:34

Az új Windows-frissítés ismét térdre kényszeríti a szervereket

Na most kapaszkodj, mert a legújabb áprilisi Windows-biztonsági frissítés (KB5082063) telepítése után néhány szerver szinte azonnal újraindulási körforgásba zuhan...

péntek 21:24

A Naprendszer különcei: a legfurcsább bolygók

🐼 A Naprendszer bolygói elképesztően sokfélék. Vannak óriásiak és aprók, némelyiket sűrű légkör borítja, másoknak egyáltalán nincs légkörük...

péntek 21:12

Az MI-katasztrófákért ki felel – forr a vita Illinois-ban

Érdekes felvetés, hogy Illinois állam most az MI-fejlesztők felelősségét próbálja tisztázni, ha egy technológia komoly bajt okoz...

péntek 20:56

Az ingyenes fedélzeti netnek vége, leáldozik a T‑Mobile aranykora?

🚨 A T-Mobile évekig verhetetlen volt, ha a repülőn elérhető ingyenes Wi-Fi-ről volt szó, most viszont jócskán megcsappant az előnyük...

péntek 20:47

Az atomlánc, amely új korszakot nyit az elektromos térérzékelésben

A gyenge, alacsony frekvenciájú elektromos terek pontos mérése eddig komoly kihívást jelentett, főleg a nagy, nehezen miniatürizálható eszközök és a korlátozott felbontás miatt...

péntek 20:34

Az ámbráscetek kommunikációja kísértetiesen emlékeztet a miénkre

Az ember és az ámbráscetek között első ránézésre kevés a közös vonás, elvégre 90 millió éve volt az utolsó közös ősünk...

péntek 20:23

Az antibiotikum-rezisztencia robban: szétpukkanó baktériumok szórják a géneket

A baktériumok elképesztően találékonyak tudnak lenni, amikor az életben maradásról van szó...

péntek 20:14

Az űrhajózás új korszaka: rekordok, úttörők és kihívások

🚀 Felmerül a kérdés, merre tart most az űrhajózás, miközben minden eddiginél izgalmasabb fejlemények zajlanak mind a NASA, mind a komoly magáncégek berkeiben...

péntek 20:01

A várva várt ingyenes MI-frissítés közeleg a Galaxy S25-re

🚀 A Samsung végre elérhetővé teszi azokat a mesterségesintelligencia-funkciókat, amelyeket először a Galaxy S26 modellben ismerhettünk meg – ráadásul teljesen ingyen a Galaxy S25 felhasználóinak...

péntek 19:56

A Supermicro új szörnye: 40 mag, brutális háló, letisztult ház

Jól mutatja ezt, mennyi mindent zsúfoltak bele egy viszonylag apró, de elképesztően erős szerverbe...

péntek 19:45

Az elveszett bizalom: újságírás az MI viharában

Bár egyre többen alkalmazzák a mesterséges intelligenciát a médiában, az újságíró közösségben továbbra is erős fenntartások élnek a használatával szemben...

péntek 19:34

A YouTube végre újra szólhat a háttérben az Edge Canaryvel – ingyen

Most őszintén, könyörgöm, észrevetted már, hogy a YouTube mennyire rákapcsolt, amikor pénzt akar tőled szedni?..

péntek 19:12

Az MI korában is az ember a győztes csapat kulcsa

Technológiai forradalomban élünk, ahol minden eddiginél gyorsabban haladhatnak előre a cégek – a kérdés azonban korántsem ilyen egyszerű: vajon mindenki valóban jó irányba indul-e?..

péntek 18:59

Az Anthropic veszélyes MI-je: tényleg fenyeget, vagy csak pánikkeltés?

⚠ Április elején az Anthropic bejelentette legújabb MI-modelljét, Mythos néven. A döntés, hogy a fejlesztést nem engedik szabadon a nagyközönséghez, szinte példátlannak számít a szektorban – legutóbb hasonló lépésre 2019-ben az OpenAI szánta el magát...

péntek 18:58

A bolti kávék nagy túlélőkalauza: Mit érdemes venni?

Az élelmiszerboltok polcain sorakozó kávékkal szembesülő vásárló könnyen elbizonytalanodhat: vajon nem hagy-e ki valami jobbat a jól megszokott márkák mögött?..

APP
péntek 09:12

APPok, Amik Ingyenesek MA, 4/17

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     PostalCal (iPhone/iPad)A Postal Employee Day Off Calendar egy egyszerű, célzott alkalmazás, amely a USPS postai dolgozók és családtagjaik számára készült...

péntek 08:52

Az óriás nyelvi modellek futtatásának új korszaka

💻 Amit látunk, az túlmutat a megszokotton: a nagyméretű nyelvi modellek (LLM-ek) üzemeltetése ma már nem csupán jó algoritmusokról szól, hanem komoly hardvertervezési és optimalizálási kérdés is lett...

péntek 08:43

Az okosóráról irányítható mobilkamera: megérkezett a Blackmagic újdonsága

A Blackmagic Camera alkalmazás iOS-re újabb szintre lépett, hiszen mostantól Apple Watchról is egyszerűen vezérelhető és monitorozható...

péntek 08:37

Az univerzum rejtett arca: fekete lyukak és titkos dimenziók

Erre utal többek között az, hogy a fekete lyukak soha nem tűnnek el teljesen, még akkor sem, ha Hawking sugárzása révén látszólag folyamatosan veszítik tömegüket...

péntek 08:29

Az új Walmart Onn 4K Pro megéri a pénzét?

Érdekes, hogy a Walmart ismét egy váratlan termékbejelentéssel borzolja a kedélyeket, most éppen az Onn 4K Pro streaming boxszal...

péntek 08:24

Az MI-alapú keresés új szintre emeli az ügyfélszolgálati ügynökök tudását

A mai digitális világban elengedhetetlen, hogy a különféle MI-ügynökök hatékonyan tudjanak keresni az információk között...

péntek 08:16

Az MI-háború új felvonása: a Claude Opus 4.7 visszaveszi a trónt

A mesterséges intelligencia fejlesztésének újabb mérföldkövéhez érkeztünk: az Anthropic piacra dobta legújabb, mindenki számára elérhető nagy nyelvi modelljét, a Claude Opus 4...

péntek 08:08

A hosszú élet titka: a rettegett „halálfehérje” nyomában

Fontos kérdés, hogy miért gyengül az immunrendszer és a vérképzés az életkor előrehaladtával...

péntek 08:01

Az északi fények tánca Amerikáig ér a Nap koronalyuka miatt

Észak-Amerika egyes részein különleges látványosság várható ezen a hétvégén: ritkán látható északi fények festik az eget, mindezt egy jelentős, a Nap légkörében, a koronában keletkezett koronalyuknak köszönhetően...

péntek 07:57

Az áttörés még várat magára: a Bitcoin újra beszakadt

A Bitcoin árfolyama csütörtök délelőtt hirtelen esett vissza, miután sorozatosan kudarcot vallott a 27,5–28 millió forintos (75 000–76 000 USD) árfolyamszint áttörésében...

péntek 07:43

Az IBM-et 6 milliárdos DEI-botrány rázza meg

Erre utal többek között az, hogy az IBM 6 milliárd forint (17 millió dollár) összegben kötött megállapodást egy, a sokszínűség, esélyegyenlőség és befogadás (DEI) programjai miatt indult vizsgálat ügyében...

péntek 07:36

Az elhízást tényleg legyőzheti egy természetes hormon?

🥗 Ami először apróságnak tűnt, most áttörésnek számít a tudósok szerint: egy természetes hormon, az FGF21 képes visszafordítani az elhízást egerekben...

péntek 07:29

A Robloxot milliárdos bírság sújtja, szigorodik a gyerekvédelem

Az egyik legnépszerűbb online játékplatform, a Roblox összesen több mint 4,4 milliárd forintot (12 millió USD) fizet, és új biztonsági intézkedéseket vezet be, miután Nevadában per elé került a gyermekvédelem hiányosságai miatt...