Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

hétfő 21:00

Az Instagram felrobbant: Kylie Jenner ismét bikiniben pózol

A hétfői rosszkedvre itt a tökéletes ellenszer: Kylie Jenner újabb bikinis szelfivel lepte meg követőit, és elképesztően néz ki...

MA 07:24

Az árzuhanásnak vége: elszáll a RAM ára

📈 Érdemes megvizsgálni, hogy jelenleg nem rossz időpont újítani a gamer PC-t, legalábbis ha grafikus kártyát szeretnél...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 11/26

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     LightTrac (iPhone/iPad)A LightTrac egy korszerű, fizika alapú alkalmazás, amely kültéri fotósoknak nyújt nélkülözhetetlen segítséget az ideális fényviszonyok megtalálásához...

MA 07:08

A Google Térképen végre névtelenül írhatsz értékelést

Négy új funkció érkezik a Google Térképbe (Google Maps), köztük az anonimitás lehetősége...

MA 06:58

Az MI-piac átrendeződik: a bérelhető GPU-k könyörtelen túlélési próbája

Az MI-forradalommal robbanásszerűen megnőtt a kereslet a bérelhető GPU-k iránt, mivel sok cég nem tud saját hardvert beszerezni...

MA 06:51

Az összeolvadó csillagpár kihívás elé állítja Einstein elméletét

💫 Nagyjából 4000 fényévnyire egy ritka csillagpárt figyelnek: a ZTF J2130 rendszer két tagja végzetes spirálban forog egymás körül, szinte összeérnek...

MA 06:43

Az atomerőművek újjáélesztésével törne ki az energiasokkból Nagy-Britannia

Nagy-Britanniában robbanásszerűen növekszik az energiaigény az MI és az elektrifikáció terjedése miatt, ezért a kormány gyökeres változtatásokat tervez az atomenergia-szektorban...

MA 06:37

Az első MI-hálaadás: a mesterséges vendég már az asztalnál

A Hálaadás már nemcsak a pulykáról és a családi összejövetelekről szól, egyre határozottabban jelen van a mesterséges intelligencia is...

MA 06:30

Az Amazon drónja elvágta a netkábelt – új vizsgálat indul

🛩 Az Amazon szállítódrónja komoly bajba sodorta a céget Texasban, miután egy baleset során leszakított egy internetkábelt...

MA 06:24

Az emberi sorsok ledöntik a klímafáradtság falát

Amikor Belémben, az Amazonas szívében megrendezték a COP30-at, ismét a világ figyelme a politikai egyezkedésekre és emissziós vállalásokra szegeződött...

MA 06:18

A levesóriás visszavág: szó sincs 3D-nyomtatott húsról

A Campbell’s közleményben hárította azokat a vádakat, amelyek szerint leveseiben 3D-nyomtatott, laboratóriumi vagy biotechnológiai úton előállított húst használ...

MA 06:06

Történelmi események a mai napon (November 26.)

Erős fordulópontok és emlékezetes pillanatok egy napon: Tutankhamon sírjának feltárása, a Sykes–Picot-egyezmény nyilvánosságra hozatala, a Casablanca (Casablanca) premierje és a mumbai merényletek tragédiája sodorta tovább a történelmet...

MA 06:02

Az Alzheimer-kór Achilles-sarkát találták meg

Egy dán kutatócsoport sorsfordító felfedezést tett: megtalálták az Alzheimer-kór egyik rejtett kiváltó okát, amely új utakat nyithat a betegség elleni küzdelemben...

kedd 20:49

Az igazságtalan boldogság: miért védi a rendszer a középosztályt?

Az utóbbi években a világ kormányai egyre jobban aggódnak a növekvő egyenlőtlenség, a társadalmi összetartás gyengülése és az intézményekbe vetett bizalom csökkenése miatt...

kedd 20:33

Az IKEA új, színes Bluetooth-hangszórói még idén megérkeznek

Az IKEA az év végén dobja piacra legújabb Teklan-kollekcióját, amely a svéd dizájner, Tekla Evelina Severin közreműködésével készült...

kedd 20:17

Az AstroLab 37: 44 szintetizátor egyetlen zsebbillentyűzetben

🎵 Az Arturia legújabb fejlesztése, az AstroLab 37, igazi áttörést hoz a színpadi billentyűzetek világában...

kedd 20:01

A ROG Ally tovább bírja – játékprofilokkal spórol az akkun

🔋 A ROG Ally kézikonzol mostantól 40 népszerű játékhoz automatikusan alkalmaz játékprofilokat, így minden játékban optimalizálja a képkockaszámot (FPS) és az energiafogyasztást...

kedd 19:49

Az IBM átveszi az uralmat az MI-piacon?

🤖 Az IBM továbbra is a legellenállóbb vállalatok közé tartozik a technológiában, különösen a mesterséges intelligencia területén...

kedd 19:34

Az életmentő űrakció: a kínai űrhajósok végre hazatérnek

Kína egy váratlan válságot oldott meg azzal, hogy sikeresen elindított egy személyzet nélküli „mentőcsónakot” a Tiangong űrállomáshoz, megmentve a már több mint egy hete hazatérési lehetőség nélkül maradt Sencsou–21 legénységet...