2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 14:38

Az új Pixel 10a unalmasnak látszik – épp ettől zseniális

👍 A Pixel 10a első pillantásra egyetlen izgalmat sem tartogat: a dizájn szinte ugyanaz, a hardver szintén, a fejlesztések inkább kozmetikaiak, mint forradalmiak...

MA 14:22

Az Oukitel RT10: ipari extrákkal turbózott, szuperstrapabíró tablet

🛡 Aki munkahelyi környezetbe keres igazán masszív táblagépet, az Oukitel Industry RT10-zel jó eséllyel nem nyúl mellé...

MA 14:01

Az új kriptóhullám: zuhannak a részvények, áll a Bitcoin

📈 A Bitcoin árfolyama közel 1%-ot emelkedett, most 77 000 dollár, azaz nagyjából 28,1 millió forint körül jár...

MA 13:55

Az első szingapúri űrügynökséggel elrajtol Ázsia új űrversenye

Szingapúr áprilisban elindítja első nemzeti űrügynökségét, hogy vezető szerepet vállaljon a gyorsan növekvő űriparban...

MA 13:18

A Pentagonnal csap össze az Anthropic: botrány a 72 milliárdos MI-szerződés miatt

Az Anthropic és a Pentagon között 72 milliárd forint (200 millió USD) értékű MI-szerződés sorsa komoly veszélybe került...

MA 12:55

A várva várt Bitcoin-szuperciklus elmarad? CZ lehűti a kedélyeket

💸 Hirtelen bizonytalanság: a szuperciklus lekerült a napirendről Changpeng Zhao, vagyis CZ, a Binance korábbi vezetője még hetekkel ezelőtt is arról beszélt, hogy soha nem látott kripto-szuperciklus jöhet a tömeges intézményi befektetések és a kriptóbarát szabályozás miatt...

MA 12:38

A nyílt forráskódú MI a következő globális biztonsági rémálom?

Erre utal többek között az, hogy egyre több kutató hívja fel a figyelmet a nyílt forráskódú MI veszélyeire...

MA 12:19

Az iPhone Fold hosszabb üzemidővel verhet rá a Galaxy Z Fold 7-re

📱 Az Apple idén mutathatja be első hajlítható készülékét, amelyet eddig csak iPhone Foldként emlegetnek...

MA 11:55

A mormoták nem időjósok, hanem a természet mérnökei

🐻 A mormota (Marmota monax) régóta a legnépszerűbb időjárás-jósló állat Észak-Amerikában, de a valóságban megbízhatatlan, ha előrejelzésekről van szó...

MA 11:38

A megbízható MI titka: a visszakeresési infrastruktúra

🔑 Kevesen gondolnak rá, mégis a vállalati MI-rendszerekben már nem az okos válasz, hanem a mögöttes visszakeresési mechanizmus lett a legérzékenyebb pont...

MA 11:19

Az Alphabet részvénye még mindig aranytojást tojik?

💰 Az Alphabet hamarosan közzéteszi 2025 negyedik negyedéves eredményeit, miközben a részvény árfolyama tavaly óta több mint 68%-kal emelkedett...

MA 11:02

Az állami hackerek csapdája: botrány a Notepad++ frissítése körül

🕵 A közkedvelt Notepad++ szövegszerkesztő frissítési rendszerét 2025-ben állami támogatású hackerek támadták meg: hónapokon át képesek voltak rosszindulatú szoftvert kínálni a felhasználóknak, miután sikeresen kompromittálták a Notepad++ hivatalos szerverét...

MA 10:59

A Tether, amely ma mindenkit megoszt: irigység vagy gyűlölet

A Tether, a világ legnagyobb stabilcoinja, az utóbbi hónapokban példátlan átalakuláson ment keresztül...

MA 10:43

Az MI-állásokra már deepfake jelentkezők is pályáznak

Tipikus eset, amikor a technológia fejlődése oda vezet, hogy már az állásinterjúkon is deepfake csalók próbálnak meg átverni valódi cégeket – akár olyanokat is, amelyek maguk is MI-biztonsággal foglalkoznak...

MA 10:33

A parányi fénycsapda, amely átírhatja a kvantumszámítógépek jövőjét

💡 Az elmúlt évek lassú előrelépése után most végre megnyílhat az út a valóban nagy teljesítményű kvantumszámítógépek előtt...

MA 10:25

Az Apple már titokban a második hajlítható iPhone-t tervezi

📲 Az Apple még meg sem jelentette a saját hajlítható iPhone-ját, de máris egy kisebb, kagylóhéj-formájú modell fejlesztését fontolgatja...

MA 10:17

A ParaFi 13 milliárdért tarolt JUP-ban – szárnyal az MI-pénz

A Solana-alapú Jupiter, amely a legnagyobb decentralizált tőzsdeaggregátor, bejelentette, hogy a ParaFi Capital 35 millió dollárt (kb...

MA 09:49

Az amerikai hóvihar lefagyasztotta a TikTokot, de már újra pörög

A TikTok közel 220 millió amerikai felhasználóját érintette egy komoly leállás, amelyet egy hóvihar okozott az Egyesült Államokban...

MA 09:41

Az Apex Legends búcsút int a régi Switchnek – itt a váltás ideje?

Apex Legends hamarosan búcsút int a Nintendo Switch első generációjának. A Respawn bejelentette, hogy a 30...

MA 09:33

Az indonézek ismét engedélyezik a Grok MI-t, ám szoros felügyelet alatt

Indonézia ismét elérhetővé tette a Grok nevű MI-chatbotot, miután ideiglenesen betiltotta, mert több millió kérésre válaszolva gyermekeket is érintő, jogsértő tartalmakat generált...

MA 09:27

Az MI-zaj uralja a közösségi médiát – kitör a lázadás

Az elmúlt években a közösségi média drasztikusan átalakult. Egyre nagyobb mennyiségben terjednek a világhálón azok a képek és videók, amelyek látványosan MI segítségével születnek – és minőségükben gyakran hagynak kívánnivalót maguk után...

MA 09:17

A Polymarket a Jupiterre érkezik – szárnyalhat a Solana

A Solanán működő Jupiter tőzsde most először integrálja a Polymarketet, és ezzel célja, hogy átfogó on-chain predikciós központtá váljon...

MA 09:09

A tenyérnyi e-olvasó, amely egyszerre felbosszant és elvarázsol

📖 Eddigi kedvenc e-olvasóm nagyon egyszerű okból az volt: kicsi volt. Nem volt háttérvilágítása, nem voltak oldalváltó gombjai, mégis minden nap magammal vittem...

MA 08:58

A pánik elsöpri Ázsiát: Dél-Korea vezeti az esést

📈 Az ázsiai–csendes-óceáni térség tőzsdéin hétfőn meredek esések indultak, Dél-Korea állt a lejtmenet élén...

MA 08:49

Az Epstein-ügy már Bill Gates imázsát is megtépázza

🔥 Bill Gates neve ismét előkerült az Epstein-üggyel kapcsolatban, miután újabb igazságügyi dokumentumok részleteket tártak fel a kapcsolatukról...

MA 08:41

Az Apple bekeményít: többé nem követhetnek mindenütt az iPhone-odon

Az Apple új adatvédelmi funkcióval védi a felhasználókat, amely lehetővé teszi, hogy iPhone- és iPad-készülékeken korlátozzuk helyadataink pontosságát a mobilhálózatok felé...

MA 08:33

Az indiai kriptóadó marad, jönnek a brutális bírságok

India 2026–2027-es költségvetése változatlanul hagyja a kriptovalutákra kivetett 30 százalékos nyereségadót, és továbbra is 1 százalékos forrásadót (TDS) von le minden tranzakciónként...

MA 08:26

A néma agybetegség négyszerezheti a demencia esélyét

Az időskori demencia titokzatos kockázati tényezője sokáig rejtve maradt, miközben az orvosok leginkább az agyvérzések és a szív- és érrendszeri problémák hatását kutatták...

MA 08:20

Az olcsó, csendes csodafegyver: teszten a Oneisall Pet Air Purifier

Ez a jelenség jól illusztrálható azzal, hogy a háziállatok rengeteg örömet hoznak a mindennapokba, mégis hajlamosak próbára tenni a türelmünket, főleg, ha a lakás levegőjének tisztaságáról vagy az allergiás tünetek súlyosbodásáról van szó...