2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

kedd 21:56

A valódi bitcoin-mélypont még előttünk – elmarad a 2026-os csúcs?

2024 első felében a bitcoin továbbra is hullámvasúton mozog: miközben sok elemző már az új bikapiacot ünnepli, a digitális valuta veterán befektetője, Michael Terpin borúsabb képet fest a következő hónapokra...

kedd 21:45

Az Avian Alarm küldetés összes trükkje és titka az Arc Raidersben

Az Arc Raiders legújabb, eddigi legnagyobb frissítése többek között elhozza az Avian Alarm projektet, amelyben madarakat kell alkalmaznod, hogy megfigyeld a szeizmikus aktivitást és a légköri változásokat Speranza területén...

kedd 21:34

Az AirPods végre Androidon is úgy működik, ahogy kell

Például eddig az AirPods csak egyszerű Bluetooth fülhallgatóként funkcionált Androidon, így az összes kényelmi és extra lehetőség nélkül kellett beérniük a felhasználóknak...

kedd 21:23

A mesterséges intelligencia túljár az eszeden: a blokklánc kipakolja céges titkaidat

🕵 Egy lényeges szempont, hogy az adatnaplózás és a digitális tranzakciók korában mindennél fontosabb, mit és hogyan osztasz meg a világgal...

kedd 21:12

Az antianyag hullámként viselkedik: áttörés a kvantumfizikában

💪 Érdekes felvetés, hogy az anyag – és most már az antianyag is – nemcsak részecskékből, hanem hullámokból is állhat...

kedd 20:56

A kihalt rokonaink titka: miért tűntek el a neandervölgyiek?

🧠 Érdemes megvizsgálni, hogy miért tűntek el a neandervölgyiek, miközben a Homo sapiens meghódította Európát...

kedd 20:34

A Fallout legendás atyja belevág az utolsó játékába

🎮 Tim Cain, a Fallout egyik megálmodója közel harminc év után ismét felbukkanna a játékfejlesztés színpadán, még egyszer, utoljára, mielőtt végleg visszavonulna...

kedd 20:23

Az Aave nagy mentőakciója a kriptokáoszban

🛡 Fontos kérdés, hogyan lehet helyreállítani a decentralizált pénzügyi (DeFi) rendszerekbe vetett bizalmat, amikor egyetlen támadás több százmillió dolláros rést üt a rendszerbe...

kedd 20:01

A Curiosity rejtélyes marsi molekulái az élet nyomaira utalnak

🔬 A NASA Curiosity marsjárója lenyűgöző változatosságú szerves molekulákra bukkant a Marson, köztük olyan vegyületekre is, amelyek a földi élet kémiai alapjaival rokoníthatók...

kedd 19:46

Az első tollas dinoszaurusz átírja a madarak eredetét

A múlt század végéig a világ csupán néhány kövületből próbálta megfejteni, miként váltak a madarak különálló lényekké...

kedd 19:34

Az új Steam Controller jön először – a RAM-hiány az oka

🕹 A Valve új hardverei közül elsőként a Steam Controller debütál 2026...

kedd 19:22

Az MI-adatközpontok forradalma: szárnyal a Galaxy Digital, mérsékli veszteségét

A Galaxy Digital az első negyedéves veszteségét sikeresen csökkentette, és most új, izgalmas területen terjeszkedik: Texasban és a mesterségesintelligencia-adatközpontok irányába...

kedd 19:01

A nagy Bitcoin-háború: Satoshié a kincs, vagy a befektetőké?

💸 A kriptovilág új frontot nyit: a közelgő eCash hard fork, amelyet 2024 augusztusára jelentettek be, alaposan felkorbácsolta a kedélyeket...

kedd 18:57

Az első adatközpont, ahol emberi agysejtek is számolnak

A világ egyik legizgalmasabb technológiai újdonsága készül Melbourne-ben: egy ausztrál startup laborban növesztett emberi idegsejtekkel működő adatközpontot fejleszt, amely a hagyományos szilíciumchipek mellé biológiai processzort is beilleszt...

kedd 18:45

Az új Robinhood-hack: hamis riasztások árasztják el a felhasználókat

⚠ Mind több felhasználó kapott riasztó e-mailt a Robinhood nevében, amelyben szokatlan bejelentkezési tevékenységről tájékoztatták őket...

kedd 18:34

Az MIT kutatói lézerekkel új korszakot nyitnak az agyképalkotásban

💡 Az MIT kutatói meglepő optikai jelenségre bukkantak, amely új távlatokat nyithat az élő szövetek gyorsabb és részletesebb leképezésében...

kedd 18:23

Az álmok titkos élete: tudatosabbak, mint gondolnád

💤 Az álmok nemcsak spontán jelennek meg éjszaka, hanem valójában agyunk kreatív remixei: személyiségünk és élményeink összefonódásából egészen új, néha szürreális történeteket alkotnak...

kedd 17:34

A telihold szürreális műalkotássá festette az indonéz folyót

🌕 Az Indonéziában, Szumátra szigetén kígyózó Rokan-folyó torkolatában egészen különleges látvány tárult a Landsat 8 műhold elé: a vízben lebegő üledék látványos, ecsetvonásszerű rajzolatokat festett a felszínre...

kedd 17:12

Az ördög Pradát visel 2: Végre itt, mindenki erről beszél

🔥 Jellemző példa erre, hogy a 2006-os kultikus vígjáték folytatására hihetetlenül sokat kellett várni: a divat világát kifigurázó Az ördög Pradát visel (The Devil Wears Prada) második része május 1-jén debütál a mozikban világszerte...

kedd 17:02

Az iráni hekkerek lecsaptak: veszélyben az amerikai tengerészgyalogosok adatai

🔫 Többek között közel 2400, a Perzsa-öböl térségében szolgáló amerikai tengerészgyalogos személyes adatait hozta nyilvánosságra egy iráni kiberbanda, amely már hónapok óta szervezi támadásait...

kedd 16:56

A PlayStation-tábor forrong a 30 napos ellenőrzés miatt

🔥 Több PlayStation-felhasználó igazi rémálomként élte meg, hogy a Sony digitális boltjából vásárolt játékoknál feltűnt egy új, 30 napos licencellenőrzési kötelezettség...

kedd 16:46

Az MI végre munkába áll: a Mistral Workflows betör a vállalatokhoz

💼 A francia székhelyű Mistral AI, amelynek értékét 11,7 milliárd euróra (kb...

kedd 16:34

Az amerikai infláció, háborús pánik és gyenge jen ledöntötte a bitcoint

Az év eleji menetelés után a bitcoin ára a héten 28 millió forint (76 500 dollár) környékére húzódott vissza, messze az áhított 29,5 milliós (80 000 dollár) árfolyamtól...

kedd 16:22

Az izraeli digitális sékel megérkezett: stabilcoin a blokkláncon

Izrael első hivatalosan szabályozott stabilcoinja elindult: a Bits of Gold nevű tel-avivi kriptotőzsde két évnyi tesztidőszak után megkapta az engedélyt, így már stabilcoint bocsáthat ki a helyi pénznemhez, a sékelhez kötve...

kedd 16:12

Az első 6K-s gamer monitor: forradalom vagy parasztvakítás?

A Samsung bemutatta az Odyssey G8-at (G80HS), amely a világ első 6K-s, 32 hüvelykes gamer monitora, és 1 499 eurós (kb...

kedd 16:01

Az MI elveszi a fiatalok munkáját? Egy vezető kiutat mutat

💡 Az utóbbi években rengeteg fiatal, főként a Z generáció tagjai, épp arra ébrednek rá, mennyire semmivé vált az a tudás, amivel az iskolapadból kikerültek...

kedd 15:57

Az apró távcső, amelytől ámulnak az égbolt rajongói

👀 A DwarfLab Dwarf Mini igazi újdonságnak számít azoknak, akik egyszerűen, gyorsan és minimális vesződéssel szeretnének égi fotókat készíteni...

kedd 15:45

Az OpenAI új mobilja trónfosztja az iPhone-t?

📱 Az OpenAI újabb meglepetéssel készül a techvilágnak: a korábbi pletykákkal ellentétben nemcsak digitális hangrögzítőn, viselhető kiegészítőn vagy okoshangszórón dolgozik, hanem egy saját fejlesztésű mobilchipen is, ami egy teljes OpenAI-mobiltelefon eljövetelét vetítheti előre...

kedd 15:34

Az áramhálózatot már robotok irányítják: startol Kína nagy dobása

⚡ A kínai hatóságok idén 8 500 vadonatúj robotot vetnek be az ország energiaellátásának megújítására...