2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 21:56

Mikor jön A testamentumok 9. része a Hulura és a Disney+-ra?

📚 A csendes vihar előtti pillanatok uralják A testamentumok (The Testaments) legújabb epizódjait, miközben a szereplők egyre nehezebb döntések előtt állnak...

MA 21:45

A New York Magazine szerzőjét egy héten belül másodszor vádolják plágiummal

Ross Barkan, a New York Magazine szerzője másodszor is komoly plágiumvádakba keveredett egyetlen hét alatt...

MA 21:34

Az utolsó titán: felfedezték Thaiföld leghosszabb nyakú dinoszauruszát

Új, eddig ismeretlen dinoszauruszfajt fedeztek fel Thaiföldön, amely mintegy 120 millió évvel ezelőtt élhetett...

MA 21:23

Az örök vita: melyik karaktert a legkönnyebb cosplayelni?

Néha a legapróbb ötletek tartogatják a legtöbb örömöt, még akkor is, ha egyáltalán nem idő- vagy pénzigényesek...

MA 21:12

A tudósok szerint az egyhetes böjt átformálja a testedet

Tipikus eset, amikor az emberi szervezet különleges képességeit csak extrém körülmények között ismerjük meg igazán...

MA 21:01

Az Anker power bank 20 dollárért verhetetlen: kicsi és erős

🔋 Az Anker egy 10 000 mAh kapacitású power bankot kínál, amely egyszerre kompakt és megbízható, ráadásul kevesebb mint 7 200 forintért (20 USD)...

MA 20:46

A Turtle Beach Stealth Pro 2 szinte tökélyre csiszolja az elődjét

Felmerül a kérdés, hogy merre tovább egy olyan termék után, ami szinte mindenben felülmúlta a várakozásokat...

MA 20:34

Az új Star Citizen alfa teljes reset: jön a szigor a duplázókra

A Star Citizen univerzuma most teljesen újraindul: a legújabb Alpha 4...

MA 20:23

A TSA elmagyarázza, miért vihetsz grillcsirkét a fedélzetre

🐔 Érdekes felvetés, hogy míg a repülőtéri ellenőrök szinte mindent elkoboznak, amit folyékonynak vagy gyanús tárgynak gondolnak, addig egész grillcsirkéket akár korlátlan mennyiségben vihetsz a kézipoggyászban a fedélzetre...

MA 20:01

A fiatalok miatt valós idejű harcra vált a Final Fantasy?

🎯 A játékiparban egyre élesebb vitát vált ki, hogy a valós idejű vagy a körökre osztott harcrendszer a vonzóbb a játékosok számára...

MA 19:56

Az alulértékelt szupergyümölcs: a görögdinnye meglepően jót tesz a szívnek

🍉 Felmerül a kérdés, hogy mennyit tudunk valójában a görögdinnye egészségügyi hatásairól...

MA 19:45

A Minisforum mindent a NAS-ra tesz – két SSD-s újdonság, borsos áron

Megemlíthető továbbá, hogy a Minisforum jelentősen bővíti a hálózati adattárolók sorát: az új All-Flash S5 és All-Flash S7 modellek kizárólag SSD-meghajtókat támogatnak, így hangos merevlemezek helyett villámgyors és néma adattárolást kínálnak...

MA 19:35

A Corsair Vanguard Air 99 mennyei, de megéri a felárat?

A Corsair Vanguard Air 99 Wireless teljes méretű gamer billentyűzet meglepően könnyű és kompakt, úgy, hogy a teljes kiosztást megtartja...

MA 19:24

A félistenek háborúja: Demigod, a káosz remeke

A Demigod egy elképesztően látványos és fantáziadús stratégiai játék, ahol dinoszauruszok, óriások és félistenek küzdenek egymással egy grandiózus, de kissé zavaros világban...

MA 18:56

Az áttörő nanotechnológia visszafordította az Alzheimer-kórt egerekben

🔬 A tudósoknak sikerült forradalmi nanotechnológiát alkalmazniuk, amely visszafordította az Alzheimer-kórhoz hasonló tüneteket egerekben...

MA 18:23

Az SBI és a Rakuten kriptoalapokat indítanak: fordul a piac?

💸 Két vezető japán brókercég, az SBI Securities és a Rakuten Securities arra készül, hogy hamarosan kriptovaluta-befektetési alapokat kínáljon ügyfeleinek...

MA 15:23

Az indie akció-RPG, ahol letaszítod és szöges falba vágod őket

Felmerül a kérdés, hogy mivel lehet kitűnni a Minecrafthoz hasonló, tömbös látványvilágú játékok világából, ha mindenki szinte ugyanazzal próbálkozik...

MA 15:12

A római könyvtár mélyéről került elő az angol költészet elveszett kincse

Egy ír egyetemen dolgozó kutatócsoport véletlenül bukkant rá a legrégebbi fennmaradt angol versre, miközben egy középkori könyvet lapozgatott egy római könyvtár digitalizált gyűjteményében...

MA 15:01

A DeFi új frontja: VerifiedX szerint jön a programozható, privát Bitcoin-korszak

💰 Ilyen eset például, amikor a Bitcoin körül egyre többen keresik, hogyan lehetne a világ legrégebbi blokkláncát végre nemcsak értéktárolásra használni, hanem valódi DeFi (decentralizált pénzügyi) alkalmazásokat futtatni rajta...

MA 14:56

A Civilization 7-be ingyen érkezik a történelem leghíresebb hódítója

A Civilizáció 7 (Civilization 7) legújabb frissítése hétfőn fut be, és meglepetésként minden játékos számára elérhetővé teszi a történelem egyik leghíresebb hadvezérét, Nagy Sándort...

MA 14:34

A Szaharában egyiptomiaknál régebbi, óriási kör alakú tömegsírokra bukkantak

A Kelet-Szudánban, a hatalmas Atbai-sivatagban többéves kutatómunka alatt 260 hatalmas, kör alakú temetőt sikerült azonosítani, amelyek jóval az ókori Egyiptom létrejötte előtt épültek...

MA 13:45

A Firedancer lassan, de biztosan építi a Solana új infrastruktúráját

🔥 A Jump Crypto új validátor kliense, a Firedancer, már csendben működik a Solana főhálózatán...

MA 13:34

A ChatGPT már a bankszámládra pályázik – mi baj lehet?

Az OpenAI legfrissebb újítása egy személyes pénzügyi szolgáltatás, amelyet jelenleg az USA-ban tesztelnek Pro-előfizetőkkel...

MA 13:23

A Webb és a Hubble az Örvény-galaxis vakító mélyére merülnek

Erre jellemző példa, hogy a csillagászok egy lenyűgöző, új felvételt készítettek az Örvény-galaxisról (Whirlpool Galaxy, Messier 51), amely közelebb visz bennünket a csillagok születésének rejtélyeinek megértéséhez...

MA 12:56

Az igazán ijesztő: az ellopott bankkártyád olcsóbb, mint egy kávé

💸 A digitális világban minden eddiginél könnyebb pénztárca nélkül áldozattá válni. Egy friss kutatás szerint a sötét weben mindössze 4500 forintért hozzá lehet jutni egy brit bankkártya teljes adataihoz, míg egy teljes digitális azonosítócsomag 15 ezer forintba kerül...

MA 12:34

Az agyátültetés még mindig lehetetlen – miért?

Jellemző példa erre, hogy Arizonában több mint 150 levágott fejet tárolnak kriogén kamrákban abban a reményben, hogy a jövő orvostudománya egyszer újra életre keltheti őket egy másik testben...

MA 11:12

Az elveszett, 1200 éves kézirat az első angol verset rejti

Egy tizenkilencedik századi kézirat került elő Rómában, amely igazi szenzációnak számít a nyelvészek és irodalomtudósok körében: a Trinity College Dublin kutatóinak sikerült azonosítani az egyik legkorábbi, ma ismert angol vers egyik legrégebbi változatát...

MA 11:01

A Riválisok 2 elkezdődött – a csúszást egy váratlan csavar indokolja

A Riválisok (Rivals) második évadának első három epizódja már elérhető a Hulu-n és a Disney+-on, viszont a rajongók csalódottan tapasztalhatják, hogy a szezon második felére idén még várni kell...

MA 10:55

Az ok, amiért egyes daganatok mégis túlélik a kemoterápiát

💉 A rákos sejtek makacs túlélése régóta okoz fejtörést az orvosoknak, különösen, amikor a legerősebb terápiák is hatástalanok maradnak...