Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 07:43

A Bitcoin száguld: karnyújtásnyira a 36 milliós álomhatár

🚀 Új év, új remények: a Bitcoin 2026 elején ismét erőre kapott...

MA 07:30

Az országos Verizon-leállásnak végre vége

📶 Több tízezer előfizető maradt szolgáltatás nélkül, miután a Verizon hálózata tíz órán át súlyos leállással küzdött...

MA 07:22

Az új Google MI már mindenhol a nyomodban jár

🔍 A Google bemutatta a Személyes Intelligencia (Personal Intelligence) nevű funkciót, amellyel a Gemini MI mostantól a Gmailben, a Google Fotókban, a keresési előzményeidben és akár a YouTube-on tárolt adataidból is képes információkat kinyerni...

MA 07:15

Az elsötétülő óceán halálos csapdát állít az élővilágnak

🌊 Hihetetlen, de mégis igaz, hogy a tengerfenéken időről időre egyfajta víz alatti sötétség alakul ki, amely napokra, de akár hónapokra is eltarthat...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 1/15

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     TumbleTrack (iPhone/iPad)A TumbleTrack egy olyan alkalmazás, amely minden szintű kőcsiszolási hobbihoz készült...

MA 07:09

Az ősi Homo habilis csontváz átírhatja az emberi evolúciót

Tudósok megtalálták minden idők legteljesebb Homo habilis csontvázát, amely több mint 2 millió éves, és néhány tulajdonsága a híres Lucyhoz, egy Australopithecus példányhoz hasonló...

MA 07:02

Az újabb geopolitikai válság a Bitcoint is padlóra küldi?

A Bitcoin az elmúlt héten impozáns ralit produkált, ára 96 000 dollár (kb...

MA 06:58

Az eltűnt rinocérosz rejtélye egy farkaskölyök gyomrában lapul

Egy több mint 14 000 éves szibériai farkaskölyök természetes módon mumifikálódott teteme igazi tudományos kincsesbányának bizonyult...

MA 06:50

A Holdon épül az amerikai atomreaktor – tényleg megtörténik?

🌑 A NASA és az Egyesült Államok Energiaügyi Minisztériuma összefogott, hogy 2030-ig egy hasadási (fissziós) atomreaktort helyezzenek üzembe a Holdon...

MA 06:43

A kozmosz titokzatos pillangói: gubóba zárt fekete lyukak

A James Webb-űrteleszkóp új felfedezése rávilágíthat a világegyetem egyik legrejtélyesebb objektumának valódi természetére...

MA 06:29

Az OpenAI új dobása: a ChatGPT Agora összeköti a platformokat?

Az OpenAI házon belül már teszteli a ChatGPT legújabb újdonságát, az Agorát – legalábbis erre utalnak a webes, androidos és iOS-es frissítésekben felbukkanó kódnevek...

MA 06:22

A Meta felfalná az áramot: érkeznek az óriás adatközpontok

A Meta új belső szervezetet hozott létre, hogy felügyelje a mesterséges intelligenciát kiszolgáló számítástechnikai infrastruktúra bővítését...

MA 06:16

Az X leállítja a valódi emberek bikinifotóinak manipulálását

Az X drasztikus lépéseket tett a Grok nevű MI-chatbot körüli botrányos képmanipulációk miatt...

MA 06:09

Az angol rendőrség lebukott: hamis MI-adatokkal tiltották ki a focidrukkereket

🕵 A West Midlands-i rendőrség vezetője hetekig tagadta, hogy mesterséges intelligenciát (MI) használtak volna, amikor a Maccabi Tel Aviv futballszurkolóit kitiltották az Egyesült Királyságból...

MA 06:05

Történelmi események a mai napon (Január 15.)

Koronázás, fegyverszünet, új korszakok születése és tragédiák: a mai nap évszázadok óta fordulópontokat hoz a politikában, kultúrában és sportban...

MA 06:02

Az MIT áttörése: közeleg a rétegezett MI‑chipek forradalma

💻 Amit látunk, az túlmutat a megszokotton: az MIT mérnökei olyan új chiparchitektúrát fejlesztettek, amellyel jelentősen csökkenthető az MI-alkalmazások energiaigénye...

szerda 20:50

Az edzésappok adatvámpírok: így óvd a magánéleted!

A fitneszappok szezonja ismét itt van: sokan év elején fogadalmat tesznek, hogy fittebbek lesznek, izmot építenek vagy éppen fogyni akarnak...

szerda 20:34

Az új adathalász-trükk: így loptak ki érzékeny adatokat a Microsoft Copilotból

Érdemes megérteni, hogy egy most leleplezett, Reprompt elnevezésű támadási módszerrel rosszindulatú felhasználók akár egyetlen kattintással hozzáférhettek a Microsoft Copilot által kezelt érzékeny adatokhoz, majd onnan észrevétlenül kiszivárogtathatták azokat...

szerda 20:19

A HP Omen Max 16: brutális teljesítmény jó áron, hordozhatatlan

🔥 Fontos kérdés, hogy kinek ajánlható a HP Omen Max 16, egy kifejezetten komoly gamereknek szánt laptop, amely a legerősebb alkatrészeket és remek kijelzőt kínál, ráadásul a csúcskategóriában meglepően kedvező árazással...