Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 16:01

A hongkongi bankok új trükkje: csak személyesen férsz a pénzedhez

🔒 Hongkong új szintre emeli a banki csalás elleni védelmet: bevezették a Money Safe-számlákat, amelyekből kizárólag személyes megjelenéssel lehet pénzt felvenni vagy utalni...

MA 15:49

A papírlevél korszaka véget ér Dániában

Dániában mostantól már senki sem számíthat arra, hogy hivatalos levelet talál a postaládájában, ugyanis az állami PostNord végleg leállította a levélkézbesítést...

MA 15:34

A hódgátak forradalma: megmenthetik a tájat a tűzvészek után?

🦐 Magasan, Fort Collinstól nyugatra fekvő hegyekben tudósok és mérnökök hódokat utánoznak — legalábbis ami a gátépítést illeti...

MA 15:17

Az NIH visszakozik: újraértékelik az elutasított kutatási pályázatokat

Több száz egészségügyi kutatási pályázat kapott új esélyt az Egyesült Államokban, miután a National Institutes of Health (NIH) bejelentette: felülvizsgálja azokat a támogatási kérelmeket, amelyeket a Trump-kormány antidiverzitási intézkedései miatt függesztettek fel...

MA 15:01

A SoftBank 1460 milliárd forintért bevásárol az MI-forradalomba

A japán SoftBank Group 4 milliárd dollárért, vagyis mintegy 1460 milliárd forintért felvásárolja a DigitalBridge Groupot, hogy tovább erősítse pozícióját a globális MI-infrastruktúra fejlesztésében...

MA 14:49

Az olcsó napelemek forradalmasítják Afrika mindennapjait

Az olcsó, kínai napelemek és akkumulátorok új korszakot nyitnak Afrika energiaellátásában...

MA 14:36

Az MI-próféta bukása: 2025-ben jön a kijózanodás

🔍 Érdemes megvizsgálni, hogy 2025-re miként váltott át az MI-t övező hisztéria a józanabb, hétköznapi szemléletbe...

MA 14:18

A telefon trónja meginog: mi váltja le?

📱 Érdekes felvetés, hogy pár éven belül teljesen máshogy fogunk kommunikálni a technológiával, mint ahogy ma megszoktuk...

MA 13:49

Végre itt az első hajlítható kijelzős kézikonzol

🤓 A OneXSugar Wallet kompakt, kagylóhéjas kivitelben érkezik, így könnyedén elfér a zsebben, mégis egy hatalmas, 8,01 colos (20,3 cm) OLED kijelzőt rejt belül...

MA 13:34

Az ember, akinek mosás után pikkelyesedik a keze

🖖 Egy húszas éveiben járó férfi furcsa és megmagyarázhatatlan kézbőrpanaszokkal jelentkezett a bőrgyógyászaton...

MA 13:17

A kiberbiztonsági szakértők a sötét oldalra álltak: zsarolóvírus-bűnözők

🕵 Két amerikai kiberbiztonsági szakember, Ryan Clifford Goldberg és Kevin Tyler Martin, beismerte, hogy titokban zsarolóvírus-támadásokat szerveztek saját ügyfeleik ellen...

MA 13:02

Az iPad előtt felnövő gyerekek bizonytalanabbak és szorongóbbak

Az egyre fiatalabb gyerekeket érik el a digitális eszközök képernyői, pedig aggasztó következményei lehetnek a túlzott képernyőhasználatnak már egészen kicsi korban is...

MA 12:49

Az izraeli Iron Beam: eljött a lézeres drónvadászat kora

Izrael élesben is bevetette a világ első lézervédelmi rendszerét, az Iron Beam-et, amely száz kilowattos teljesítménnyel képes lelőni drónokat, rakétákat és aknavetőgránátokat, ráadásul egy-egy lövés szinte semmibe sem kerül...

MA 12:34

Az RGB-forradalom: óriástévék és színek, ameddig a szem ellát

A 2026-os CES tévétrendjei egészen új irányt mutatnak: hirtelen minden nagy gyártó RGB-tévével készül előrukkolni, és a 85 colos méret már az új 65 colosnak számít...

MA 12:17

Az égető évtized: 2025-ben is sorra dőltek a melegrekordok

2025-ben Közép-Ázsia, a Száhel-övezet és Észak-Európa minden eddiginél forróbb évet élt meg, ez derül ki a Copernicus európai klímaadatainak elemzéséből...

MA 12:01

Az MI memóriaéhsége felverheti a PC-k árát

Az MI-hez szükséges egyre több RAM már most is érezteti hatását a PC-piacon, és a következő években tovább fokozódhat a helyzet...

MA 11:49

Az Iron Beam lézer forradalmasítja a drónok elleni védelmet

Izrael vasárnap rendszerbe állította első Iron Beam lézervédelmi rendszerét, amellyel az ország immár négyrétegű védelmi architektúrát alakított ki, a Vaskupola (Iron Dome), a Dávid Parittyája (David’s Sling) és a Nyíl (Arrow) rendszerek mellett...

MA 11:17

Az MI-milliárdok 2026-ban kevesebb céghez jutnak

💸 Az elmúlt években a nagyvállalatok folyamatosan kísérleteztek különféle MI-eszközökkel, hogy kialakítsák, milyen stratégiát kövessenek az új technológiák bevezetésénél...

MA 11:02

Az ErrTraffic hamis böngészőhibákkal csap be – új kibercsalás

⚠ Egy veszélyes, frissen felbukkant kiberbűnözői eszköz, az ErrTraffic automatizálja a ClickFix-támadásokat kompromittált weboldalakon...