Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 07:49

A Plejádok rejtett rokonsága – az ég titkos családfája

Évszázadok óta ismert látvány a Pleiadok csillaghalmaza, más néven a Hét Nővér, amelyről eddig úgy hittük, csak egy kis, ragyogó csillagcsalád...

MA 07:42

Jön az új vezérigazgató az Apple élére?

Az Apple a hírek szerint felgyorsította utódlási terveit, és könnyen lehet, hogy Tim Cook, a cég 65 éves vezérigazgatója már jövőre leköszön...

MA 07:36

A fotonikus csodachip szivárványt varázsol egyetlen lézerből

🌈 A fény manipulálása egyre fontosabb szerepet kap a tudományban és az iparban, legyen szó szuperszámítógépek adatfeldolgozásáról vagy precíziós órákról...

MA 07:18

Az 55 millió éves murgoni krokodiltojáshéjak meglepő titkai

🐋 Érdekes, hogy Ausztrália egyik legjelentősebb őslénytani kincseire éppen egy alig 2 000 lelkes, Brisbane-től 250 kilométerre fekvő kisváros, Murgon környékén bukkantak rá a kutatók...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 11/17

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     LightTrac (iPhone/iPad)A LightTrac egy innovatív, fizikai alapokon nyugvó alkalmazás, amely lehetővé teszi a szabadtéri fényviszonyok pontos megtervezését...

MA 07:10

Az első pillantás a szupernóva rejtett arcára – végre szétszakadt a csillag

Az Európai Déli Obszervatórium óriástávcsövének köszönhetően először láthatták csillagászok, ahogy egy robbanó csillag kitörése áttöri a felszínt...

MA 07:01

Az MI forradalmasítja a Tejútrendszer szimulációját

🚀 A csillagászatban jelentős áttörést hozott, hogy kutatók elsőként készítettek olyan Tejútrendszer-modellt, amely több mint 100 milliárd csillagot követ nyomon egyenként...

MA 06:58

Az MI-óriások új titkos fegyvere: fénysebességű chipjelek

A mai adatközpontokban a sebesség elérte a rézalapú összeköttetések határát: a gyorsabb kommunikáció már elképzelhetetlen a jelenlegi technológiával, mivel a jelek rövid távon is elcsillapodnak, és a rendszer energiaigénye az egekbe szökik...

MA 06:49

A Google 14 ezermilliárdot önt texasi adatközpontokba

A Google sosem látott mértékű fejlesztést jelentett be: a következő két évben mintegy 14 ezer milliárd forintot (40 milliárd dollárt) költ texasi adatközpontokra...

MA 06:34

Az űridőjárás tombol, a pokolbéli disznók visszatérnek

Ez a hét tele volt csillagászati izgalmakkal: komoly napkitörések zavarták meg a Föld környezetét, üstökösök robbantak fel, közben előkerültek földtörténeti rémek, és a kvantumgépek okozta veszélyek is egyre fenyegetőbbek...

MA 06:25

Az MI felforgatja a Windowst – lázadnak a fejlesztők

A Microsoft elnöke, Pavan Davuluri szerint a Windows ügynökjellegű operációs rendszerré fejlődik, amely összeköti az eszközöket, a felhőt és az MI-t, hogy bárhonnan biztosítsa az intelligens, biztonságos munkát és a hatékonyabb munkavégzést...

MA 06:21

Rakétalámpa: Űrhajós hangulat gombnyomásra

A HGomx által készített 3D nyomtatott rakétalámpa minden űrrajongó szobájának központi dísze lehet...

MA 06:18

A nagy Tesla-ígéret: most beszállsz, és meggazdagodsz?

💰 Bámulatos volt látni, ahogy a Tesla részvényei az elmúlt tíz évben 2900%-ot emelkedtek, és rengetegen gondolkodnak el azon, vajon tényleg gazdaggá tehet-e egy ilyen befektetés...

MA 06:02

A pizzaszállítás titkos varázsa: önismeret házhoz

Különösen nehéz önmagunkba nézni, a múlt hibáit őszintén vizsgálni és beismerni, mégis Eric Osuna A pizzaszállítás (A Pizza Delivery) című játékának szereplői könnyedén megteszik ezt...

vasárnap 20:50

Tényleg léteztek női gladiátorok az ókori Rómában?

⚔ Felmerül a kérdés, hogy léteztek-e női gladiátorok a híres római arénák véres küzdelmeiben, vagy csak férfiak harcoltak egymással a közönség szórakoztatására...

vasárnap 20:33

Az Opera feltámasztja a Winamp-élményt a böngészőben

Az Opera One böngészőjének legújabb frissítése egy zenei vizualizációs funkcióval bővült, amely a régi, legendás Winampot idézi...

vasárnap 20:17

A jég fogságából: 40 ezer éves mamut-RNS szólal meg

🦴 Tipikus eset, amikor a tudomány elképesztő áttörést ér el: svéd kutatók több tízezer éves gyapjas mamutból nyertek ki ép RNS-t, és olyan titkokra bukkantak, amelyek új fényt vetnek a jégkorszaki óriás életének utolsó pillanataira...

vasárnap 20:02

Az univerzum sötét oldala: engedelmesebb a sötét anyag, mint hittük

Az eddig legpontosabb kozmikus vizsgálat szerint a sötét anyag meglepően engedelmesen viselkedik: úgy tűnik, ugyanazoknak a fizikai törvényeknek engedelmeskedik, mint az általunk ismert anyag...

vasárnap 19:49

A legújabb őrület: szappanoperák a zsebedben

📺 Pár éve senki sem fogadott volna arra, hogy a függőleges videók feltörnek Hollywoodban...