Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

hétfő 21:00

Az Instagram felrobbant: Kylie Jenner ismét bikiniben pózol

A hétfői rosszkedvre itt a tökéletes ellenszer: Kylie Jenner újabb bikinis szelfivel lepte meg követőit, és elképesztően néz ki...

MA 08:23

A 12 ezer éve néma etióp vulkán kitört – mi jön ezután?

Etiópia sivatagos, északkeleti térségében a régóta hallgató Hayli Gubbi vulkán vasárnap óriási hamufelleget lövellt 14,5 kilométer magasra...

MA 08:16

Az álfrissítés vírust hoz: terjed a hamis Windows Update

A kiberbűnözők új trükköt vetettek be: megtévesztő, Windows Update animációval teli, teljes képernyős böngészőoldalt mutatnak, és ebben rejtik el a káros kódot...

MA 08:09

Az Arduino-közösség forrong: jönnek az új szabályok, szűkül a tér?

Fontos kérdés, hogy a közelgő Qualcomm-felvásárlás előtt az Arduino új felhasználási feltételei mennyire veszélyeztetik az eddig megszokott nyitott, átlátható működést...

MA 08:02

A vegán diéta letaszítja trónjáról a mediterrán étrendet

Egy friss elemzés szerint a vegán diéta hatékonyabban segíti a fogyást, mint a mediterrán étrend – még akkor is, ha az étrendben krumpli és finomított gabonák is szerepelnek...

MA 07:58

Megjött a még olcsóbb, még erősebb Opus 4.5

Az Anthropic bemutatta új zászlóshajó-modelljét, az Opus 4.5-öt, amely a korábbiaknál hatékonyabb, több funkcióval bővült, olcsóbb lett, és sokkal jobb kódolási teljesítményt nyújt...

MA 07:50

Az űrutazás ára: verseny az idővel kínai űrhajósokért

🚀 November 25-én Kína elindítja a Shenzhou–22 nevű űrhajót az űrállomásához, hogy mentőűrhajót biztosítson az ott tartózkodó űrhajósok számára...

MA 07:44

Az MI új csodafegyvere: az Opus 4.5 leszámol az Excellel

Az Anthropic bemutatta zászlóshajó MI-jének új, Opus 4.5-ös verzióját, amely kiemelkedően teljesít programozásban, számítógépes felhasználásban és irodai feladatok automatizálásában...

MA 07:37

Az iShares bitcoinalapjából pánikszerűen menekülnek a befektetők

A BlackRock iShares Bitcoin Trust ETF hatalmas kiáramlást tapasztalt novemberben: egyetlen hónap alatt majdnem 870 milliárd forintot (2,2 milliárd USD) vontak ki a befektetők...

MA 07:22

Az elmeirányító fegyverek már a küszöbön vannak?

A neurológia, a gyógyszerkutatás és az MI robbanásszerű fejlődése nyomán olyan, az agyműködést befolyásoló fegyverek jelenhetnek meg, amelyek már nemcsak a tudományos fantasztikum világába tartoznak...

APP
MA 07:13

APPok, Amik Ingyenesek MA, 11/25

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     WhoSampled (iPhone/iPad)A WhoSampled egy izgalmas alkalmazás, amely felfedi a zenék titkos kapcsolatait: megmutatja, mely dalokból vettek mintákat, kik dolgozták fel vagy remixelték őket...

MA 07:08

Az első Intel Panther Lake-es mini PC: itt a GMKtec EVO-T2

💻 A GMKtec bemutatta az EVO-T1 utódját, az EVO-T2-t, amely a világ első mini PC-je lesz az Intel legújabb Panther Lake platformjával...

MA 07:03

A haldokló korallzátonyok megpecsételhetik Florida jövőjét

🐟 A floridai korallzátonyok pusztulása az állam jövőjét veszélyezteti, mind ökológiai, mind gazdasági szempontból...

MA 06:58

A brit flotta új csodafegyvere: a DragonFire, a drónok réme

🔥 A brit haditengerészet hamarosan új fegyverrel szereli fel egyik rombolóját: a DragonFire lézeres védelmi rendszer már 2027-től megjelenhet a flottában, miután 154 milliárd forintos (415 millió dolláros) szerződést kötöttek a fejlesztésére...

MA 06:52

Az Ozempic terhesség alatt: a láthatatlan kockázatok nyomában

A közelmúltban megjelent tanulmány alapján nem zárható ki, hogy azoknál a várandós nőknél, akik korábban az Ozempichez hasonló készítményeket használtak, nagyobb eséllyel lépnek fel bizonyos terhességi szövődmények...

MA 06:43

Az Alphabet MI-je trónfoszthatja a ChatGPT-t

🥇 Az Alphabet nemrég bemutatta legújabb MI-modelljét, a Geminit, amely hamarosan komoly fenyegetéssé válhat az OpenAI világhírű ChatGPT-je számára...

MA 06:38

Az űrháború elkezdődött: SpaceX, Blue Origin és ULA csap össze Floridában

A floridai Cape Canaveral űrközpont új korszak kapujában áll: a SpaceX elképesztő tempóban fejleszti Starship rakétáját, és már jövőre elindulhatnak az első floridai startok...

MA 06:29

Az Amazon házimozit farag az Echo hangszórókból fillérekért

🎧 Az Amazon végre széles körben elérhetővé tette az Alexa Home Theater funkciót, amellyel a kiválasztott Echo hangszórókból valódi térhatású házimozi építhető...

MA 06:22

Az agyad sérül, mielőtt a vérnyomásod megugrana

💉 Egy új, preklinikai kutatás kimutatta, hogy a magas vérnyomás már jóval azelőtt károsítja az agy érhálózatát, az idegsejteket és a fehérállományt, mielőtt maga a vérnyomás mérhetően megemelkedne...