2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 17:23

A Revolutnál 2 centet mutatott a Bitcoin – kijelzési hiba

Fontos kérdés, mennyire megbízhatóak a kriptovaluta-alkalmazások valós piaci körülmények között. Ilyen eset például, amikor egy elterjedt pénzügyi appban egy hirtelen árfolyamesés villan fel a semmiből – legalábbis néhány felhasználó képernyőjén...

MA 17:01

A Windows örök: 2026-ban is még a régi Win32 hajtja

💻 Rengetegen bosszankodnak Windows 11 alatt a régi, elavult párbeszédablakok láttán. Ezek a menük igencsak árulkodnak arról, hogy a rendszer mélyén sokkal idősebb kódrétegek lapulnak, mint gondolnánk...

MA 16:34

Az olajdrágulás bedöntötte a bitcoin árfolyamát

💸 Érdemes megvizsgálni, hogy a bitcoin újabb zuhanását ismét a geopolitikai feszültségek okozták: az Egyesült Államok iráni légicsapásai az olaj árát átmenetileg hordónként 100 dollár (kb...

MA 16:01

Az Instructure-hack súlyosbodik: feltörték a Canvas iskolai portálokat

A ShinyHunters hackercsoport újabb szintre emelte a támadását, amikor átmenetileg manipulálta csaknem 330 oktatási intézmény bejelentkezési oldalait...

MA 15:58

A Honor MagicPad 4 csendben mindent kijavított: a legjobb középkategóriás Android tablet

🚀 Honor ismét nagyot alkotott a MagicPad 4-gyel, amely nem csupán az előző modell minden hibáját javította ki, hanem új szintre is emelte a középkategóriás Android tabletek mezőnyét...

MA 15:45

Az Xbox a Project Helixről, következő konzoljáról még idén többet árul el

Az Xbox vezetője, Jason Ronald bejelentette, hogy még idén további részleteket árulnak el a Project Helix néven futó, következő generációs konzolról...

MA 15:35

Az EU sarokba szorítja a Google-t: mi lesz a keresési adatainkkal?

🔍 Egy komoly konfliktus bontakozik ki a Google és az Európai Unió között a keresési adatok felett, amely alapjaiban forgathatja fel azt, ahogyan mindennap böngészünk a neten...

MA 15:23

A tét nagy: az Amazon MI-ügynökei valódi pénzt mozgatnak

Felmerül a kérdés, mikor jön el az idő, amikor nem te intézed az online fizetéseket, hanem egy MI dönt, és a háttérben hajt végre minden tranzakciót...

MA 15:13

Amerikai munkaerőpiaci lassulás felverheti a bitcoint — ha a béremelkedés nem hűt

📈 Érdemes megvizsgálni, hogy a pénteken érkező nem mezőgazdasági foglalkoztatottsági jelentés hogyan rázhatja meg a kriptopiacot...

MA 15:01

A stabilcoin-kártyás költés évente megduplázódik – Rain vezetője szerint

💳 Az elmúlt évben robbanásszerűen nőtt a stabilcoin-alapú bankkártyák forgalma, a kártyás, stabilcoinnal történő vásárlások értéke több mint 105%-kal ugrott meg...

MA 14:56

A hétköznapi hashajtó meglepően óvja a veséket

A krónikus vesebetegség világszerte százmilliókat érint, és gyakori oka a veseelégtelenségnek...

MA 14:46

Az SK hynixnél teltház: példátlan ajánlatözön memóriachipekért

A memóriachipek piaca teljesen felbolydult: az SK hynixnél már hatalmas sorok állnak szerződésekért, de a gyártó képtelen kielégíteni a keresletet...

MA 14:34

Az AWS leállása miatt órákra befagyott a Coinbase

💸 Az egyik legnagyobb kriptotőzsde, a Coinbase órákra elérhetetlenné vált egy komoly felhőszolgáltatói probléma miatt...

MA 14:23

Az 500 éves arany foghíd: Skócia legkorábbi fogpótlása, hamis foggal

Aberdeen középkori karmelita templomának feltárása során felfedeztek egy férfi alsó állkapcsát, amelyen egy 500 éves aranyhuzalból készült foghíd nyomait találták meg...

MA 14:02

Az élő kvantumhálózati teszt New Yorkban két akadályt tör át

💻 A kutatók most először hoztak létre élő kvantumhálózatot New Yorkban, amely valós körülmények között is működőképes lehet, és gyakorlatilag feltörhetetlen internethez vezethet...

MA 13:56

A Bitcoin 80 ezer dollár alá csúszott: falnak ment a ‘Trump-rali’

💸 Érdemes megvizsgálni, miért csúszott vissza a Bitcoin ára 80 000 dollár (kb...

MA 13:46

A mangrovék évente 3200 milliárd forintot spórolnak a nitrogénszennyezés megkötésével

🌲 A mangroveerdők valóságos ökológiai szupersztárok, amelyek lenyűgöző munkát végeznek az óceánpartokon...

MA 13:34

Az S&P 500 callopciós őrület tetőzik – mit üzen ez a bitcoinnak?

A Wall Streeten igazi tőzsdeláz tapasztalható: elképesztő, 2 600 milliárd dollárnyi (kb...

MA 13:23

A Nintendo még idén megemeli a Switch 2 árát

A Nintendo Switch 2 ára idén jelentősen emelkedik: az Egyesült Államokban szeptember 1-től közel 18 900 forinttal (kb...

MA 13:12

A digitális személyazonosságod ára: meglepően olcsó a feketepiacon

🔐 Mit ér valójában a digitális személyazonosságod? Egy új online eszköz most pontosan megmutatja, mennyit fizetnének érte a bűnözők a sötét weben...

MA 12:56

Az áttörés az ínygyulladás ellen: a jó baktériumok megkímélve

😃 A szájban állandóan több száz baktériumfaj él együtt, folyamatos kommunikációban egymással...

MA 12:45

A Zcash egy hónapon belül kvantum-visszaállítható pénztárcákat indít, 2027-re kvantumbiztos

Különösen igaz ez akkor, ha a digitális pénzügyek jövőjét nézzük: hamarosan alapjaiban változhat meg, ahogyan a kriptovaluták biztonságát kezeljük...

MA 12:34

A világegyetem legnagyobb fekete lyukai erőszakos összeolvadásokban születhetnek?

💫 A tudósok új bizonyítékokat találtak arra, hogy a Világegyetem legnagyobb fekete lyukai nem egyszerűen magányos csillagok összeomlásából jönnek létre...

MA 12:01

Az orvosok figyelmeztetnek: a biotin megzavarhatja a rákkezelést

Sokan remélik, hogy a rákkezelések után visszanyerhetik hajukat, ezért szívesen fordulnak különféle étrend-kiegészítőkhöz, például a biotinhoz...

MA 11:01

Miért nehéz eladni a perp DEX-eket az intézményeknek?

📈 A nagyobb intézményi befektetők hiányoznak a perp DEX-ek (folyamatos határidős szerződéseket kínáló decentralizált tőzsdék) világából, miközben bitcoint és más jelentős tokeneket egyre inkább ETF-eken és központosított tőzsdéken keresztül vásárolnak...

MA 10:57

A RuPaul’s Drag Race All Stars 11: hol nézheted, 18 királynő küzd

🎭 Nézzük, mennyire pörgős évadra számíthatunk, hiszen május 8-án érkezik RuPaul legújabb All Stars évada...

MA 10:50

A Giro d’Italia 2026 ingyen: streamelés és teljes tévékalauz

🎬 2026 májusában ismét minden a kerékpározás körül forog, amikor elrajtol a Giro d’Italia, a szezon első háromhetes körversenye...

MA 10:43

Az univerzum titka: a folyadékok áramlása átírhatja az élet eredetét

🌊 A londoni Queen Mary Egyetem kutatói egészen új fényben vizsgálják az univerzum kialakulását és az élet lehetőségeit...

MA 10:29

A korallzátonyok titkai, amelyek forradalmasíthatják az orvoslást

🦈 Nehéz elhinni, de a tenger mélyén megbújó korallzátonyok valódi molekuláris kincsesbánya, amelyet eddig alig fedeztünk fel...