2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 20:12

A Google amerikai adatátadása botrányt kavart Svájcban

🚧 Felmerül a kérdés, mennyire bízhatunk az online óriáscégek adatkezelésében, ha azonnal teljesítik az állami szervek kéréseit...

MA 20:02

Az MI már a Google Fotóidból is képeket generál

🤖 Például ha régóta vágytál rá, hogy MI-modellek a saját preferenciáid, emlékeid vagy Google Fotóid alapján alkossanak képeket, ez most valóra válhat...

MA 19:46

A bolondok aranyában lítiumkincs rejtőzik

A modern világ egyik kulcsfontosságú alapanyaga, a lítium meglepő helyen bukkant fel: ősi palák és ipari hulladékok tartalmazhatják ezt az értékes fémet...

MA 19:34

A Google új fegyvere: a Gemini MI levadássza a csaló hirdetéseket

A Google tavaly 8,3 milliárd rosszindulatú hirdetést állított le, és közel 25 millió hirdetői fiókot függesztett fel – köztük 602 ezret csalással összefüggésben...

MA 19:23

Az MI-láz fűti a kvantumrészvények új őrületét

💸 Érdekes fejlemény, hogy a kvantumszámítógépes vállalatok részvényei szárnyalni kezdtek, amint az Nvidia bemutatta új, nyílt forráskódú MI-modelljeit, amelyek a kvantumtechnológia gyorsítását célozzák...

MA 19:12

A tenger mélyén lappangó metán felpörgetheti a klímaválságot

💧 Érdemes megérteni, hogy a világ óceánjai eddig rejtett szerepet játszhattak a klímaváltozás felgyorsításában...

MA 18:57

Az elsőként felfedezett fekete lyuk táncoló sugárnyalábokat lövell az űrbe

A Földtől mindössze 7000 fényévre található Cygnus X-1 az elsőként felfedezett és megerősített fekete lyuk, amely most is komoly meglepetésekkel szolgál...

MA 18:46

Az MI tényleg ellustítja az agyunkat? Lesújtó új kutatás

Különösen igaz ez akkor, ha a technológia mindennapjaink részévé válik: egy friss amerikai és brit kutatás szerint már tíz perc MI-használat is elég ahhoz, hogy függőséget alakítson ki, ami a gondolkodási képességek látványos romlásához és gyors kimerüléshez vezet, ha utána hirtelen megvonják az eszközt...

MA 18:35

Az MI-korszak aranyszabálya: ne találd fel magad újra, inkább mindent kapcsolj össze

🖥 Az elmúlt időszakban minden beszélgetés, fórum és előadás a munka jövőjére és arra a kérdésre összpontosított: hogyan tudunk alkalmazkodni a mesterséges intelligencia villámgyors fejlődéséhez?..

MA 18:23

Az ultrahang, amely az orrod helyett az agyadnak illatozik

Négy fiatal kutató egy elképesztően izgalmas kütyüt rakott össze: úgy tudnak illatélményt előidézni, hogy közben nem kell semmiféle vegyi patronnal vacakolni...

MA 17:46

A legújabb Google-botrány: tényleg biztonságban vannak az adataid?

🔒 Az amerikai hatóságok folyamatosan kérnek ki felhasználói adatokat a technológiai cégektől, és a Google sem kivétel...

MA 17:34

A Pixel-mobilok játékteljesítménye drámaian visszaesett – hatalmas a lemaradás

🔥 A legutóbbi tesztek alapján egyértelműen látszik, hogy a Google Pixel mobilok hardvere jelentősen lemaradt játékos teljesítmény terén vetélytársaikhoz képest...

MA 17:14

Az MI igazi kihívása: merünk-e bízni benne?

Az MI‑modellek fejlődése az utóbbi időben valósággal kirobbanó: gyakorlatilag minden héten új modell jelenik meg, mindegyik egyre hatékonyabbnak vagy sokoldalúbbnak tűnik...

MA 17:04

A zaj észrevétlenül rombol – képesek vagyunk csendet teremteni?

🔇 Amikor a Covid–19 járvány megállította a világot, a városok elcsendesedtek, és hirtelen tisztábban hallhatóvá váltak a madarak énekei...

MA 16:56

Az európai légi közlekedés bajban: hat hétre vagyunk a kerozinhiánytól

⚠ A Nemzetközi Energiaügynökség (IEA) figyelmeztetése szerint Európa alig hat hétre elegendő kerozinnal rendelkezik, ami drámai következményekkel járhat a kontinens gazdaságára nézve...

MA 16:23

Az újabb bitcoinláz: rekordközeli mélyponton a finanszírozási díjak

💸 Az elmúlt hetekben a bitcoin árfolyama meredeken emelkedett, elérve a 27,2 millió forintot (kb...

MA 16:13

Az öregedés visszafordítható? Forradalmi egérkísérletek rengetik meg a tudományt

🗓 Az öregedéssel járó károsodások egyik fő okozóját sikerült azonosítani amerikai kutatóknak: a szervezetben csendben felgyülemlő úgynevezett „zombi” immunsejteket...

MA 16:02

Az altcoinok rajtra készek, a bitcoin egy helyben toporog

Az elmúlt napokban a bitcoin árfolyama 27,2 millió forint körül ingadozik, miközben a figyelem egyre inkább az altcoinok, különösen az XRP, a Plasma és a dogecoin felé fordul...

MA 15:56

A Shinkansen új lakosztálya: csend, 5G és privát luxus

Erre utal többek között az is, hogy idén októbertől néhány japán szupervonaton már exkluzív, privát lakosztályok is elérhetők lesznek, amelyekben 5G-antennával ellátott üvegablakok és zajszűrő technológia gondoskodik a kényelmes utazásról...

MA 15:45

Az amerikai hatóságok lecsaptak Észak-Korea kiberhálózatára

🕵 Tipikus eset, amikor jól szervezett csalás miatt milliókat veszít rengeteg vállalat, miközben a háttérben csak néhány, elsőre jelentéktelennek tűnő szereplő húzza a hasznot...

MA 15:25

Az űrverseny új frontja: csata a Shackleton-kráter kincseiért

🚀 Közel lehetünk ahhoz, hogy két történelmi Hold-misszió rajtoljon el, melyek célja a Shackleton-kráter vidéke, a Hold déli pólusának egyik legérdekesebb és leggazdagabbnak tartott területe...

MA 15:12

A OnePlus Pad 4 – megérkezett az iPad Pro valódi kihívója

Felmerül a kérdés, hogy lehet-e még izgalmat csempészni a táblagépek világába...

MA 14:45

Az iPhone híváselőzményei végre kereshetők – és ezt imádjuk!

A mostani iPhone-okon már gyerekjátékká vált visszakeresni, mikor beszéltél utoljára valakivel, vagy hogy hová tűnt egy fontos hangposta-üzenet...

MA 14:35

Az amerikai koncertipar gigásza tiltott monopóliumot épített ki

Hatalmas vihart kavart az Egyesült Államokban, hogy egy szövetségi esküdtszék illegális monopóliumnak minősítette a Live Nationt és leányvállalatát, a Ticketmastert...

MA 14:24

Az ózonréteg gyógyulása késik: ipari kibúvók állják útját

🌤 A világ évtizedek óta dolgozik az ózonréteg helyreállításán, ennek ellenére egy alig ismert ipari kiskapu komoly gátat szab a regenerációnak...

MA 14:01

Az Opera MI‑asszisztensek cunamiját zúdítja a böngészésre

🌊 Na most kapaszkodj, mert az Opera böngésző most már valós időben összeköti a böngészőablakodat a legnépszerűbb AI-csevegőkkel, így jelentősen felpörgeti a böngészési élményt...

MA 13:45

Valóban létezett az apró, de halálos Nanotyrannus?

Tipikus eset, amikor a tudományos világ évtizedeken át vitatkozik egyetlen lelet jelentőségéről, míg végül egy elfeledett apró csont választ ad a nagy kérdésre...

MA 13:12

A YouTube-on végre letilthatók a Shorts – megmutatjuk, hogyan

Mostantól bárki eltüntetheti a rövid videókat a YouTube mobilos feedjéből, ha elege van a végtelen görgetésből...

MA 13:03

A föld mélyének ősi titka: a ritkaföldfémek forrása

🌍 Évmilliárdokkal ezelőtt a Föld kérge alatt zajló események máig éreztetik hatásukat: a legújabb kutatások szerint a ritkaföldfémek nem véletlenszerűen, hanem egy igen speciális földtani folyamat eredményeképpen koncentrálódnak bizonyos helyeken...