2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 08:49

Az XRP árfolyama csapdába esett – meddig húzódik a patthelyzet?

🔴 Az XRP árfolyama közel 4%-ot esett, miután a bitcoin árfolyama 32 millió forint (88 000 USD) alá csúszott vasárnap, ezzel újra a figyelem középpontjába került az 1,88 dollár (kb...

MA 08:41

Az újabb bitcoinzuhanás a kormányzati leállás és a Fed-döntés árnyékában

Vasárnap a bitcoin 88 000 dollár (~32,2 millió forint) alá csúszott, mivel a piacokat a várható amerikai kamatdöntés és a gyorsan közeledő nagy techcégek gyorsjelentései tartják feszültségben...

MA 08:34

Az ázsiai börzék idegesen hullámoznak a fokozódó geopolitikai feszültségek közepette

🚧 A hétfői kereskedésben az ázsiai–csendes-óceáni régió tőzsdéi vegyesen teljesítettek, mivel a befektetőket továbbra is a geopolitikai aggodalmak tartják éberen...

MA 08:25

Az MI tényleg kiszabadítja a robotokat a gyárakból?

Az ipari robotok régóta megbízhatóan működnek zárt, kiszámítható gyári környezetben, de ha ezen kívül kell helytállniuk, gyorsan kudarcot vallanak...

MA 08:17

Az arany ára történelmi csúcson: soha nem volt drágább

💎 Az arany ára hétfőn meghaladta az unciánkénti 5 100 dolláros (kb...

MA 08:03

A horizonton derül fény az óriáshold rejtélyére

🌕 Amikor a telihold épp felemelkedik a horizonton, gyakran megdöbbentően nagynak tűnik...

MA 07:58

A csendes járvány: így fékezhetjük meg az antibiotikum-rezisztenciát

Ami kezdetben ártalmatlannak tűnt, mára a modern orvoslás egyik legnagyobb fenyegetésévé vált: az antibiotikum-rezisztencia nemcsak korábban egyszerűen kezelhető fertőzéseket tesz újra halálossá, de veszélyezteti a műtéteket, a kemoterápiát és a szervátültetéseket is...

MA 07:49

Az éjszaka közepén lezuhant egy magángép Maine-ben

🛩 Egy nyolc főt szállító üzleti repülőgép vasárnap este felszállás közben zuhant le a Maine állambeli Bangor Nemzetközi Repülőtéren...

MA 07:41

Az új Solana-korszak: a csillogás után jön a pénzügyi komolyság

Solana mostanában jóval visszafogottabban működik, mint amikor a mémcoinok pörgették fel az árfolyamokat – és talán pont ez a lényeg...

MA 07:25

Az ipar megmentője lehet? Tiszta hidrogén a hulladékból

A mainzi Johannes Gutenberg Egyetem kutatóinak sikerült forradalmi eljárást kidolgozniuk, amellyel hulladékból, pontosabban a biodízelgyártás melléktermékéből, glicerinből állítanak elő formiátot és hidrogént...

MA 07:18

Az MI-forradalomról lemaradtál? Most behozhatod!

🚀 Az MI-robbanást elhozó csúcstechnológiás chipek közül 2023-ban az Nvidia termékei váltak a legkeresettebbé, hiszen a modern MI-modellek elképesztő számítási kapacitást igényeltek...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 1/26

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Funny Kids Poems (iPhone/iPad)A Funny Kids Poems egy játékos, interaktív könyv, amelyet legfeljebb 6 éves gyerekek számára terveztek iPhone és iPad készülékekre...

MA 07:09

Az Aircela gépe: Benzint gyárt a levegőből – mostantól igen!

A New York-i Aircela startup kifejlesztett egy gépet, amely szinte csak áram és a levegő segítségével képes benzint előállítani – első hallásra mintha a Börtönök és Sárkányok (Dungeons & Dragons) egyik alkimistájától származna az ötlet, de valójában teljesen tudományos eljárásról van szó...

MA 07:01

Az 1Password leleplezi a gyanús adathalász oldalakat

🔒 Az 1Password jelszókezelő mostantól beépített figyelmeztetésekkel óv a gyanús adathalász oldalaktól...

MA 06:57

A következő két évben két látványos, teljes napfogyatkozás jön

🌑 Két év szünet után ismét két egymást követő évben tűnik el teljesen a Nap a Hold árnyékában: 2026...

MA 06:49

Az Apple februárban lerántja a leplet a Gemini-Siriről

Jelentősen átalakított Sirit mutathat be az Apple február második felében, és ezúttal nem is akárhogyan: a Google Gemini MI-je költözik az asszisztens motorházteteje alá...

MA 06:43

Az MI aranybányája: a tudós, aki forradalmasította a tűzoltást

🔥 Sunny Sethi nem éppen olyan embernek tűnik, aki felforgatta volna a tűzoltók világát...

MA 06:33

A nyugtató képernyőzés valójában csak növeli a stresszt?

A mai világban egyre többen érzik magukat kimerültnek, mégis a legtöbben a képernyők előtt próbálnak kikapcsolódni...

MA 06:26

A valaha talált legősibb sziklarajz, gigantikus víztározó és brutális napvihar

🌍 A tudományos világ ezen a héten elképesztő felfedezésekkel és meglepetésekkel szolgált, amelyek alapjaiban rengették meg eddigi ismereteinket...

MA 06:17

Veszélyben a géped az új Windows 11-frissítéstől?

⚠ Érdemes tudni, hogy a Microsoft gyanúja szerint bizonyos PC-k egyáltalán nem indulnak el a Windows 11 2026...

MA 06:05

Történelmi események a mai napon (Január 26.)

Rövid visszatekintés a mai napra a történelemben: óriási természeti katasztrófák, birodalmak sorsfordító csatái és államalapítások formálták a világot...

MA 06:01

A NexPhone: androidos mobilodból egy mozdulattal PC lesz

Az eddig NexDock néven ismert kiegészítőkkel már évekkel ezelőtt laptop-munkaállomássá alakíthattad a mobilodat, most azonban a Nex Computer saját okostelefonnal állt elő...

vasárnap 20:56

A gigászi Schrödinger-macska: minden eddiginél nagyobb kvantumállapot

🐈 A kvantumfizika egészen elképesztő kísérlettel bővült: Bécsben kutatóknak sikerült többezeres nátriumatom-klasztert úgy „megosztaniuk”, hogy ez a csoport egyszerre több helyen is tartózkodott – vagyis hatalmas szuperpozícióba került...

vasárnap 20:37

A NAV lecsap a kriptóra – így jelentsd be!

Amikor megjelent a kriptovaluta, sokaknak tetszett az ötlet, hogy nincs mögötte kormány vagy jegybank...

vasárnap 20:19

A legújabb Windows 11-frissítés kék halált hoz?

💻 A Microsoft vizsgálja, miért omlanak össze egyes Windows 11-es gépek a januári biztonsági frissítés telepítése után...

vasárnap 20:01

A mindennapi apróságokkal éveket nyerhetsz az életedhez

Valóban szükség van radikális diétára, napi több óra edzésre és végeláthatatlan zöldségzabálásra, hogy tovább éljünk?..

vasárnap 19:55

Az amerikai Délnyugatot meghódító ősi vadburgonya

Több mint tízezer évvel ezelőtt az amerikai Délnyugat lakói egy kis vadburgonyát, a Four Corners-burgonyát (Four Corners potato, Solanum jamesii) vitték magukkal hosszú vándorlásaik során...

vasárnap 19:38

Az AmpereOne-t is megizzasztó Dynatron W23 hűtő nagytesztje

Míg az Ampere Altra Max processzorhoz számos hűtőopció létezett, az új AmpereOne-hoz már jóval kevesebb az elérhető megoldás...

vasárnap 19:19

Az orosz hackerek új vírusától rettegett a lengyel energiahálózat

⚠ Lengyelország elektromos hálózatát tavaly év végén eddig ismeretlen törlővírus támadta meg, amely valószínűleg orosz állami hackerekhez köthető...