Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján


Legfrissebb posztok

A MI-forradalom csúcsán: zsarolóvírusokat gyárt a Claude

csütörtök 23:26

A MI-forradalom csúcsán: zsarolóvírusokat gyárt a Claude

A Claude Code, az Anthropic MI-alapú nagy nyelvi modellje igazi aranybányává vált a kiberbűnözők számára: az elmúlt időszakban egészen új szintre lépett a fertőző programok fejlesztése és terjesztése....

Az állam beszállt az Intelbe – közel 10 százalékos részesedés

csütörtök 23:01

Az állam beszállt az Intelbe – közel 10 százalékos részesedés

Az Egyesült Államok kormánya 8,9 milliárd dollár értékben, azaz mintegy 3 230 milliárd forintért vásárol Intel-részvényeket, így 9,9 százalékos tulajdonrészt szerez a legendás chipgyártóban. A lépést Trump elnök...

Az MI-t könnyen átverik a bókok és a csoportnyomás

csütörtök 22:51

Az MI-t könnyen átverik a bókok és a csoportnyomás

Amerikai kutatók egyszerű pszichológiai trükkökkel érték el, hogy a ChatGPT olyan dolgokat tegyen, amit normális esetben tilos lenne. Például sértegesse a felhasználót, vagy elárulja, hogyan lehet lidokaint előállítani....

Összecsukható mobilok harca, Galaxy Z Fold 7 vagy Pixel 10 Pro Fold, meglepő a végeredmény

csütörtök 22:28

Összecsukható mobilok harca, Galaxy Z Fold 7 vagy Pixel 10 Pro Fold, meglepő a végeredmény

Az okostelefon-piac egyik legérdekesebb fejleménye, hogy a hajlítható készülékek szegmensében már nemcsak a Samsung, hanem a Google is komoly versenytárssá lépett elő. Két vadonatúj modell érkezett: a Samsung...

Az Acer legvadabb újdonságai az IFA-n: gamer e-bike, ultrakönnyű laptop és óriásmonitor

csütörtök 22:01

Az Acer legvadabb újdonságai az IFA-n: gamer e-bike, ultrakönnyű laptop és óriásmonitor

🚀 Berlinben, az IFA 2025 kiállításon az Acer megmutatta, milyen jövőt szán a számítástechnikának: több új laptop, egy high-tech monitor és egy szinte sci-fibe illő elektromos bicikli debütált, utóbbi...

A perui színes óriásfalfestmény, amely átírja a történelmet

csütörtök 21:51

A perui színes óriásfalfestmény, amely átírja a történelmet

🌈 Peru északnyugati partvidékén 3 000 éves, elképesztően jó állapotban fennmaradt, sokszínű falfestményre bukkantak régészek. A hat méter hosszú, közel három méter magas, háromdimenziós falfestményen kék, sárga, piros és...

Mesterséges intelligencia hozhat áttörést a segélyhívóknál

csütörtök 21:26

Mesterséges intelligencia hozhat áttörést a segélyhívóknál

Az amerikai 911-es segélyhívó központokban a mesterséges intelligencia (MI) már nem sci-fi: az Aurelian nevű digitális asszisztens valós időben segíti a híváskezelőket több mint egy tucat nagyvárosban. Milyen...

Rejtélyes múlt, aszteroidák után maradt troilitport keresnek

csütörtök 21:02

Rejtélyes múlt, aszteroidák után maradt troilitport keresnek

🚀 A Naprendszer mintegy 4,6 milliárd évvel ezelőtt keletkezett, amikor a Nap körül örvénylő hatalmas gáz- és porfelhőből alakultak ki a bolygók, valamint az aszteroidák is. Az égbolton keringő...

Kutatók szerint a pollen lehet a jövő papírja és szivacsa

csütörtök 20:52

Kutatók szerint a pollen lehet a jövő papírja és szivacsa

🌱 A Szingapúri Nanyang Műszaki Egyetem laboratóriumában látszólag szokványos kutatás zajlik, egészen addig, amíg meg nem pillantjuk a narancssárga-sárga foltokat a köpenyeken – ezek pollenből származnak. A pehelyszerű pollen...