2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 12:01

Az IKEA okosotthona: menő és olcsó, mégsem működik

📦 Az IKEA új, mindenki számára elérhető okos kütyüi végre megérkeztek! A gondolat izgalmas: menő, okos izzók, kapcsolók, dugaljak, mind kezdőáron, már 2400 forinttól...

MA 11:34

Az MI-asszisztensek kijátszása: veszélyes parancsok az orrod előtt

🛡 Egy új, böngészőkben alkalmazható trükk lehetővé teszi, hogy rosszindulatú parancsokat rejtsenek el közvetlenül a weboldalakon anélkül, hogy azt az MI‑asszisztensek észrevennék...

MA 11:23

Az iPhone 16e megkapja az álomfrissítést, amiről az Android csak álmodik

😍 Fontos kérdés, hogy mennyire lehet egy okostelefont olcsón, akár otthon is fejleszteni, főleg, ha új funkciók utólag is elérhetők lesznek...

MA 11:13

Az USA-ban berobban a vastagbélrák az 50 év alattiaknál

💉 Az Egyesült Államokban egyre fiatalabbakat érint a vastagbélrák, amely immár a leggyakoribb daganatos halálok az 50 év alattiak körében...

MA 11:01

Az új Google Gemini már mindent tud rólad – ráadásul ingyen

A Google újraírta a szabályokat: mostantól a Geminiben mindenki számára ingyenesen elérhető az a funkció, amellyel valóban személyre szabott válaszokat adhat...

MA 10:50

Az orosz hackerek új kártevőhulláma elözönli a GitHubot

Jellemző példa erre, hogy napjaink egyik legagresszívebb ellátásilánc-támadása, a GlassWorm ismét lecsapott: több mint 400 fejlesztői csomag, forráskódtár és bővítmény vált fertőzötté olyan platformokon, mint a GitHub, az npm, a Visual Studio Code és az OpenVSX...

MA 10:43

Most te vagy a hangmérnök: itt az új Spotify-mód

🎧 A Spotify most végre bevezette az Exkluzív módot (Exclusive Mode) Windowsra – innentől a szoftver ráteszi a kezét a hangkártyádra, és kiküszöböli, hogy a géped belemotyogjon a zenédbe...

MA 10:36

Az Apple új titkos fegyvere: láthatatlanul javították a sebezhetőséget

🔒 Az Apple először élesítette a Háttérbiztonsági fejlesztések nevű rendszerét, amellyel anélkül javíthattak egy kritikus WebKit-sebezhetőséget, hogy a teljes operációs rendszert frissíteni kellett volna...

MA 10:30

Az akcentus rejtett ára: kinek a hangja számít igazán?

Modern munkahelyeken sokan hiszik, hogy a legjobb ötletek maguktól érvényesülnek: az győz, aki meggyőzően érvel, vagy eredeti meglátással áll elő...

MA 10:23

Az észak-koreai hekkerek kifosztották a Bitrefillt: 19 ezren pórul jártak

💰 Március 1-jén nagyszabású kibertámadás érte a nagy nemzetközi kriptopénzes fizetési és ajándékkártya-platformot, a Bitrefillt...

MA 10:16

A gyerekkori stressz egész életre beleég a bélrendszerbe

😱 A korai gyermekkori stressz nem csupán mentális sebeket hagyhat maga után, hanem a bélrendszer működését is átrendezheti...

MA 10:10

Az iráni háború miatt rekordon a benzinárak Amerikában

Miközben az iráni háború felbolygatta a globális olajpiacot, az üzemanyagárak soha nem látott magasságokba emelkedtek Amerikában...

MA 09:57

Az Apple lopakodva telepíti a biztonsági frissítéseket a készülékeidre

🔒 Az Apple beindította a háttérben letöltődő biztonsági javításokat, amelyek olyan észrevétlenül érkeznek, hogy talán észre sem veszed őket – de a telefonod vagy a géped nagyon hálás lesz érte...

MA 09:51

Az iráni blokád a Hormuzi-szoros lezárásával fenyeget

Az elmúlt hetek eseményei szinte megbénították a Hormuzi-szoros forgalmát: ahol korábban naponta több mint 100 tanker haladt át, most viszont február vége óta alig 21 tette meg az utat...

MA 09:44

Az amerikai tőzsde igazi mélypontja még odébb van?

📈 A látszólagos tőzsdei robbanás ellenére a befektetők már hónapok óta gyakorlatilag medvepiacban mozognak...

MA 09:29

Az albérletpiac most neked dolgozik – érkeznek a durva kedvezmények

Szóval végre valami, aminek most tényleg lehet örülni bérlőként: az albérletpiacon közel 12 éve nem látott szintre emelkedtek az extra kedvezmények...

MA 09:23

A Meta leteszi az asztalodra a Manus MI-ügynököt

A Meta frissen felvásárolt MI-startupja, a Manus most egy asztali alkalmazással hozza el saját mesterségesintelligencia-ügynökét közvetlenül a felhasználók számítógépeire...

MA 09:16

Az utolsó tánc: újabb frissítés az FBC: Firebreakhez – de minek?

🔥 Mielőtt bárki eltemetné az FBC: Firebreak-et, fontos tudni, hogy a Remedy kiadta hozzá az utolsó tartalmi frissítést—de cseppet se aggódj, a szerverek még évekig bírni fogják a strapát...

MA 09:11

A Mistral Forge letaszítja trónjukról az MI-szuperszámítógépeket

👑 A francia Mistral AI bemutatta a Forge nevű platformját, amellyel cégek és állami intézmények saját MI-modelleket építhetnek, továbbfejleszthetnek és folyamatosan igazíthatnak a saját adataikhoz szabva – mindezt teljes körű adatvédelem mellett...

MA 09:01

Az XRP-n 5,5 milliárd forint a tét: háború a tőzsdén

💸 Fontos kérdés, hogy mi történik az XRP árfolyamával a következő napokban...

MA 08:57

A nagy Pikachu-leleplezés: Pizzafutár lett a Pokémon GO-ból?

👑 A Pokémon GO valaha csak játék volt, ma már viszont sokkal több: szinte észrevétlenül a városi robotok navigációs segédeszközévé vált...

MA 08:38

Az Nvidia MI-ügynökplatformja tényleg biztonságos?

🔒 Kezdetben az MI-fejlesztések fő fókuszában a képességek és a funkcionalitás állt, de most először jelent meg egy átfogó biztonsági rendszer már a kiadás pillanatában...

MA 08:30

Az MI-engedélyezés könnyen vállalati káoszhoz vezethet

Az MI-alapú ügynökök egyre több vállalatnál végzik el helyettünk az érzékeny feladatokat: CRM-rendszerekbe lépnek be, adatbázisokat olvasnak, e-maileket küldenek...

MA 08:23

A pofonegyszerű trükk, amivel túljárhatsz a ChatGPT eszén

A ChatGPT szinte mindig magabiztos válaszokat ad, bármiről kérdezed is. Olyan határozottsággal érvel, hogy első ránézésre meggyőző lehet – ugyanakkor könnyen elfeledteti, hogy az általa közvetített válasz csupán egy nézőpont, nem pedig az egyetlen érvényes megoldás...

MA 08:08

Az MI rengeteg tudományos bakit ejt – több mint hinnéd

🤔 Érdemes megvizsgálni, mennyire megbízható valójában egy olyan népszerű MI, mint a ChatGPT, ha tudományos állításokról van szó...

MA 07:57

Az MI szerinte csak nevetséges fenyegetés a Grand Theft Auto VI-ra

A videojáték-ipar épp az MI robbanását éli, sokan attól tartanak, hogy a generatív modellek elveszik majd az emberek munkáját a legnagyobb franchise-okban is...

MA 07:50

Az MI-ügynököknek végre van bizonyítható személyiségük?

Érdemes megvizsgálni, miként lehet az online térben biztosan megkülönböztetni az MI-ügynököket működtető embereket a tömeges, névtelen botoktól...

MA 07:43

Az online csalók rémálma: összefog a Google, a Meta és az Amazon

A netes csalók manapság vérprofi szélhámosokká váltak: ügyesen ugrálnak a közösségi oldalak, üzenetküldő appok, e-mailek és piacterek között, hogy lecsapjanak a legóvatosabb áldozatokra is...

MA 07:36

A Samsung Galaxy Z TriFold pályafutása villámgyorsan véget ért

⚠ Három hónap után eltűnik a boltokból a Samsung úttörő, hárompaneles, hajlítható mobilja, a Galaxy Z TriFold...