Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 11:01

Az adataink új őre: megérkezett a Private AI Compute

A Google új szintre emeli a mesterséges intelligencia felhasználását: bejelentette a Private AI Compute megoldást, amely a Gemini felhőalapú MI-modellek erejét ötvözi a bevált adatvédelemmel...

MA 10:57

A Google új időjárás-előrejelzése: villámgyors, elképesztően pontos, MI-vel

A Google jelentős frissítést hajtott végre időjárás-előrejelző rendszerén: új, MI-alapú modellje minden eddiginél pontosabban és gyorsabban jósolja meg az időjárást...

MA 10:49

Az OpenAI végre zöld utat ad a jótékony részvényadományoknak

Az OpenAI jelenlegi és korábbi dolgozói évek óta frusztráltan figyelték, hogy nem tudják részvényeiket jótékony célokra felajánlani...

MA 10:43

Az üzenet, amelyet a jövő civilizációinak hagynánk örökül

Érdemes végiggondolni, miként tudnánk a számunkra fontos ismereteket és gondolatokat átmenteni a távoli jövőbe, amikor az írott tudás rövidebb életű, mint valaha...

MA 10:33

Az ámbráscetek titkos kódja: jön a nagy áttörés

A UC Berkeley kutatói izgalmas áttörést értek el az ámbráscetek kommunikációjának megfejtésében...

MA 10:25

A Nest okostermosztátok titokban adatokat küldenek a Google-nek

Még akkor is, ha kikapcsolod a távoli vezérlést az első generációs Nest Learning termosztátokon, a Google szinte minden mozdulatodat rögzíti: figyeli a kézi hőmérséklet-változtatásokat, a szobában tartózkodó embereket, sőt azt is, hogy éri-e napfény az eszközt...

MA 10:19

Az izraeli lelőhely elképesztő őskori lelete: libával párosodó nő

Tipikus eset, amikor a múlt egy egészen szokatlan részletét tárja fel egy miniatűr szobor: Izraelben egy mindössze 3,8 cm magas, égetett agyagból készült paleolitikus figurát találtak, amely egy nővel párosodó libát ábrázol...

MA 09:48

A sosem felejtők titka végre kiderült: így működik az agyuk

Vannak, akik minden arcot örökre megjegyeznek, miközben mások rendszeresen bajban vannak az ismerősök felismerésével...

MA 09:41

A mesterséges intelligencia végre magától tanul – megérkezett a LeJEPA

Az MI fejlesztésében régóta nagy kihívás, hogy a gépek hatékonyan sajátítsák el a világ működését az emberek beavatkozása nélkül...

MA 09:27

Az igazi Deadpool-élmény VR-ban: a Marvel fenegyereke a fejeden tombol

🤡 Felmerül a kérdés, mi történik, ha a Marvel legnagyobb szájhőse végre beköltözik a virtuális valóságba: a Deadpool VR a Meta Quest 3 és 3S exkluzív játéka, ami minden rajongónak ajánlott, és minden gyűlölőjét az őrületbe kergeti...

MA 09:01

A Microsoft visszaverte minden idők legnagyobb felhős DDoS-támadását

Október 24-én az Azure DDoS Protection elképesztő, 15,7 Tbps méretű, többirányú támadást hárított el, amely minden korábbi felhős DDoS-rekordot megdöntött...

MA 08:58

Az emberiség először pillantott be egy kvantumchip belsejébe

💡 A Lawrence Berkeley Nemzeti Laboratórium és a Kaliforniai Egyetem, Berkeley kutatói példátlan részletességgel szimuláltak egy kvantumchipet, új mérföldkövet állítva ezzel a következő generációs chiptechnológia fejlesztésében...

MA 08:50

Az eltitkolt Coinbase-szivárgás: négy hónap kínos hallgatás

🔑 Egy kutató leleplezi a Coinbase késlekedését Jonathan Clark biztonsági kutató bombaként robbantotta a hírt: a Coinbase már januárban tudott arról, hogy csalók súlyos támadást intéztek az ügyféladatok ellen, mégis csak négy hónappal később hozták nyilvánosságra az ügyet...

MA 08:42

Az új Windows 11 MI-ügynökei titokban turkálnak a személyes mappáidban

🕵 A Microsoft nagy lépésre szánta el magát: a Windows 11 hamarosan teljes értékű MI-operációs rendszer lehet...

MA 08:34

Az ivóvízválság kapujában: világszerte 25%-kal nőtt a fogyasztás

Az elmúlt húsz évben világszerte 25%-kal emelkedett a vízfogyasztás, miközben a készletek egyre gyorsabban fogynak – erre figyelmeztet a Világbank legújabb összegző jelentése, a Kontinentális kiszáradás (Continental Drying)...

MA 08:26

A kínai legénység csapdába esett az űrállomáson: nincs visszaút

🚀 Lényeges, hogy három kínai űrhajós, vagyis taikonauta, jelenleg kénytelen a Tiangong űrállomáson vesztegelni, miután társaik váratlanul az ő visszatérő kapszulájukkal utaztak haza...

MA 08:02

A nagy áttörés: a CRISPR újraéleszti a kemoterápiát tüdőrák ellen

Az amerikai ChristianaCare génszerkesztéssel foglalkozó kutatói új, reménykeltő megoldást találtak a makacs tüdőrák kezelésére...

MA 07:57

Az ősi kazah város átírja a sztyeppék történelmét

Az északkelet-kazahsztáni sztyeppén feltárták Semiyarkát, egy lenyűgöző bronzkori várost, amely 3600 évvel ezelőtt valóságos ókori metropolisznak számított...

MA 07:50

A száguldó intersztelláris üstökösről végre kiderült az igazság

💧 Amikor tavaly felfedezték a 3I/ATLAS, űrből érkezett üstököst, azonnal lázba hozta a kutatókat és rajongókat egyaránt...