Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

vasárnap 00:01

Az okos varjak, akik megtisztítják a városainkat

🦉 A varjak mindig is különleges madarak voltak. Számtalan történet szól arról, hogy képesek megbarátkozni emberekkel, ajándékokat hoznak, sőt, olykor elveszett tárgyakat is visszaszolgáltatnak gazdáiknak...

Top
hétfő 16:50

Egyetemet végzett milliárdosok – ki mit végzett?

A közvéleményben gyakran keringenek olyan történetek, amelyek a felsőoktatásból kimaradó vállalkozókról szólnak...

MA 06:06

Történelmi események a mai napon (November 24.)

Ezen a napon tudományos mérföldkő, egy legendás légi eltűnés és a második világháború egyik kulcstámadása is történt...

MA 06:02

Az Alphabet-részvény most aranyat ér Buffett 1600 milliárdos lépése után?

Az elmúlt három évben rekordösszegű tőkét fektettek a befektetők az MI-részvényekbe, és különösen nagy figyelmet kaptak az úgynevezett „A hét mesterlövész” (Magnificent Seven) vállalatok...

vasárnap 20:17

Az internet felforgatta a munkát – most az MI írja át?

Az internet mindent megváltoztatott, ám nem úgy, ahogy azt 1998-ban képzelték...

vasárnap 20:01

Az iPhone-osok végre fogadhatnak fájlokat Androidról

📩 Hamarosan a Snapdragon lapkával szerelt androidos készülékek is képesek lesznek fájlokat küldeni iPhone-ra a Quick Share segítségével...

vasárnap 19:50

A mesterséges intelligencia új bálványa: miért hódolnak be a ChatGPT-nek?

🧠 Érdemes megvizsgálni, miért kezdenek egyre többen a ChatGPT-t nemcsak beszélgetőpartnerként, hanem lelki vezetőként, sőt isteni entitásként használni...

vasárnap 19:34

A köröző keselyűk titka: nem a halálodat lesik

🦉 A keselyűket gyakran baljós előjelként ábrázolják, hiszen a közhiedelem szerint csak akkor köröznek az égen, ha halál közeleg...

vasárnap 19:17

Az app, amely villámgyorsan turbózza a Windowsodat

Új lendületet kap a Windows: megérkezett a Raycast, amely egyetlen alkalmazásba gyűjti a gyorsindítót, vágólapkezelőt, billentyűparancsokat és rengeteg más hasznos segédeszközt...

vasárnap 19:04

A réz váratlan áttörést hozott az olcsóbb, gyorsabb atomkutatásban

🪐 A fotoneutron-keresztmetszetek mérése alapjaiban változhat meg egy új szubsztitúciós eljárásnak köszönhetően, amely gyorsabbá, pontosabbá és jóval költséghatékonyabbá teszi a nukleáris reakcióméréseket – méghozzá természetes réz felhasználásával...

vasárnap 18:49

Az MI aranybányája: Tényleg még mindig olcsó a Meta?

Figyelemre méltó, ahogyan a Meta Platforms az MI-t használja az adatok feltérképezésére, a felhasználói preferenciák felismerésére és optimalizálására, hogy a hirdetők pontosan azt a célcsoportot érjék el, amelyet szeretnének...

vasárnap 18:35

Az okoseszközök cseréje belassult – mi fizetjük meg az árát

💳 Az Egyesült Államokban egyre többen ragaszkodnak régi okostelefonjaikhoz, laptopjaikhoz és más digitális eszközeikhez, sokszor jóval tovább használva őket, mint néhány éve...

vasárnap 15:33

A Hattyú csillagképben tündököl a gigantikus gyémántgyűrű

💎 Egy látványos, csillogó gáz- és porszerkezet, az úgynevezett „gyémántgyűrű” tündököl 4 500 fényévnyire a Hattyú (Cygnus) csillagképben...

vasárnap 15:17

Az MI-láz új királya: Larry Page megelőzte Jeff Bezost

A Google társalapítója, Larry Page a világ harmadik leggazdagabb embere lett, miután az Alphabet részvényei 3 százalékkal emelkedtek a frissen bemutatott Gemini 3 MI-modellnek köszönhetően...

vasárnap 15:02

A Perseverance rábukkant az első idegen meteoritra a Marson

Fontos kérdés, hogy van-e élet a Marson – ezért a NASA Perseverance marsjárója már négy éve kutatja a bolygó felszínét, kőzetmintákat gyűjt, amikor váratlanul egy egészen különös, Phippsaksla névre keresztelt sziklára bukkant...

vasárnap 14:36

A középkategória királya: Samsung HW‑Q800F hangprojektor teszt

🔊 A Samsung HW-Q800F új mércét állít a középkategóriás otthoni mozi hangzásban, igazi mindentudóként érkezik a nappalikba...

vasárnap 14:18

Forrósodik a helyzet: a Tesla-befektetők újabb pofonokat kapnak

Év elején a Teslát kétségek gyötörték: a világszerte csökkenő eladások és Elon Musk politikai botrányai nyomán mélyrepülésbe kezdett a részvényárfolyam...

vasárnap 14:03

A Signal tényleg anonim? A titkok mögötti igazság

🔐 Első pillantásra úgy tűnhet, hogy a Signal az egyik legbiztonságosabb üzenetküldő alkalmazás a világon, hiszen végponttól végpontig titkosított üzeneteket kínál, ráadásul katonai szintű adatvédelemmel...

vasárnap 13:49

A legendás ICQ végnapjai: így múlt ki az üzenetküldő

🔔 Az 1990-es évek közepén a Mirabilis nevű izraeli cég forradalmasította az internetes kommunikációt az ICQ-val...