2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

hétfő 21:56

Az MI-szuperszámítógép lehet a brit fúziós áttörés kulcsa

⚡ Minden eddiginél nagyobb teljesítményű, MI-alapú szuperszámítógép épül nyáron az oxfordshire-i Culham kutatóközpontban, amely a remények szerint lendületet adhat a brit fúziósenergia-fejlesztésnek...

hétfő 21:45

Az iráni háború felforgatja az olajpiacot – Meddig bírják a gazdaságok?

Fontos kérdés, mennyire tud ellenállni a világgazdaság az olajválságnak, amelyet az iráni háború indított el...

hétfő 21:34

Az amerikai partoknál már pörögnek az új szélerőművek

Az Egyesült Államok keleti partvidékén két új offshore szélfarm is elindult, amelyek jelentősen növelik a régió zöldenergia-ellátását...

hétfő 21:23

A Wing FTP kritikus hibája az állami szervereket fenyegeti

⚠ Az Egyesült Államok kormányzati ügynökségeit sürgősen figyelmeztették, hogy a Wing FTP Server szoftverükben lévő veszélyes sérülékenységet mielőbb javítsák, mivel hackerek már aktívan kihasználják...

hétfő 21:12

A techóriások összefognak: végre együtt csapnak le az online csalókra

A Google, a Microsoft, a LinkedIn, a Meta, az Amazon, az OpenAI, az Adobe és a Match Group most közös frontot alkotnak az online átverők ellen...

hétfő 21:02

Az áttörés: szívgyógyító injekció egereknél és sertéseknél

Egyetlen speciális injekció heteken át képes beindítani a szívizom öngyógyítását – legalábbis egerekben és disznókban...

hétfő 20:56

Az új AirPods Max 2: még jobb zajszűrés, okosabb extrák

🎧 A kaliforniai Apple bemutatta az AirPods Max 2-t, amely jól ismert, fület körülölelő formáját most még jobb aktív zajszűréssel, magasabb hangminőséggel és intelligens újításokkal ötvözi...

hétfő 20:45

Az új Google TV-frissítés véget vet a reklámmentes élménynek?

📺 A Google TV újabb frissítése kisebb fennforgást okozott azok körében, akik szeretik testreszabni az okostévéjük felületét...

hétfő 20:34

Az MI áttörése: Itt a bizonyítások automatizálásának kora?

A matematika világa épp most forradalmasodik: ahogy a mesterséges intelligencia egyre gyorsabban fejlődik, a matematikusok is egyre nehezebben látják előre, milyen szerepük marad a jövőben...

hétfő 20:25

A Yahoo feltámadása: visszatér a web régi kedvence

A Yahoo az elmúlt évtizedek egyik legnagyobb hullámvasútját járta be az internet világában: fénykorából, amikor még az egész világhálót segített feltérképezni, az elhúzódó válságig és a Verizon nevű mobilóriás keblébe olvadásáig sok mindenen keresztülment...

hétfő 20:12

Az unalmas stabilcoin-részvény, amely tarol a kriptopiacon

Habár a stabilcoinokat általában a kriptovilág szürke eminenciásainak tartják, most mégis a Circle részvénye tarol: egyetlen hónap alatt több mint 100%-kal emelkedett az árfolyama...

hétfő 19:45

Az OpenAI kacérkodik az erotikával, de a pornótól hátrál

😉 Mostantól lehet majd pajzánul beszélgetni a ChatGPT-vel, de ne számíts 18+-os képekre, hangokra vagy videókra...

hétfő 19:34

Az xAI újraindul: megbotlott Musk egója a siker küszöbén?

Elon Musk alig egy hónappal azután, hogy alapította saját MI-startupját, az xAI-t, máris teljes átszervezésbe kezdett...

hétfő 19:24

A százéves rejtély: hová tűnt Nell, az első folyékony hajtóanyagú rakéta?

🚀 1926. március 16-án egy jeges mezőn emelkedett a magasba Robert Goddard úttörő rakétája, amely elsőként használt folyékony hajtóanyagot...

hétfő 17:56

A szék, ami végre megoldja a félig hordott ruhák gondját

👖 Felmerül a kérdés, mit kezdjen az ember azokkal a ruhákkal, amelyeket már egyszer felvett, de még nem kell kimosni – a padlón való gyűjtésük helyett most felbukkant egy kreatív megoldás...

hétfő 17:46

A Legyőzhetetlen 4. évada végre berúgja az ajtót

🔥 A világ sorsa forog kockán, amikor elindul a Legyőzhetetlen negyedik évada – Mark Grayson pedig kénytelen végezni egy ártatlan emberrel...

hétfő 17:23

A jó szándék kevés: az akadálymentesség rejtett csapdái

👁 A digitális világban ma már mindenki hallott arról, mennyire fontos a weboldalak akadálymentessége, mégis a gyakorlatban gyakran hatalmas szakadék tátong a tudatosság és a megvalósítás között...

hétfő 17:12

A tiltott elmélet, amely átírná a kvantummechanikát

⚠ Már több mint száz éve, hogy a kvantummechanika forradalmasította a fizikát...

hétfő 17:03

A Wi‑Fi 7 száguld, de alig akad, aki kihasználja

Sokan nem tekintik sürgős feladatnak a router cseréjét, pedig lehet, hogy ezzel jól járnának – főleg azok, akik gyakran küzdenek szakadozó, instabil internettel...

hétfő 16:56

Az árnyékban burjánzó MI: súlyos következményei lehetnek, ha nem figyelsz

🕴 A vállalatoknál egyre több digitális eszköz és alkalmazás épül be a mindennapi működésbe, így ma már szinte minden dolgozó használ valamilyen MI-alapú megoldást...

hétfő 16:45

Az óceán elveszett hangja: előkerült a valaha rögzített első bálnadal

Egy különleges, 1949-ben rögzített bálnadal került elő, amely minden eddiginél mélyebb bepillantást enged ezeknek az óriási állatoknak a kommunikációjába...

hétfő 16:24

Az új Bitcoin-láz: már a 75 ezer dollárt ostromolja

A hét elején újabb lendületet kapott a kriptopiac: a bitcoin árfolyama újra megközelítette a 75 000 dolláros (kb...

hétfő 14:03

Az iPhone-od lesz a jogosítványod? Itt a nagy áttörés!

Például reggel elindulsz dolgozni, az iPhone-od a zsebedben, de otthon hagyhatod a vastag pénztárcádat – már a jogosítványodat sem kell vinned...

hétfő 13:56

A Google most letiltotta az egyik legnépszerűbb Chrome-bővítményt

🚫 Érdekes fejlemény, hogy a Save as Image Type bővítmény, amely sokaknak megkönnyítette a képek mentését különböző formátumokban, váratlanul eltűnt a Chrome-ból...

hétfő 13:45

Az amerikai tőzsdefelügyelet elállt a BitClout-alapító elleni pertől

A New York-i déli kerületi szövetségi bíróságon március 12-én végleg lezárták az amerikai tőzsdefelügyelet (SEC) polgári eljárását, amelyben Nader Al-Najit, a BitClout és a DeSo blokkláncplatformok létrehozóját vádolták meg...

hétfő 13:35

Az atomi frusztráció forradalmasíthatja a kvantumfizikát

⚡ A Kaliforniai Egyetem kutatói egy egészen különleges kvantumállapot létrejöttére bukkantak, amikor egy kristály atomi szerkezetében kétféle, egymással versengő frusztráció – mágneses és kötési – egyidejűleg jelenik meg...

hétfő 13:23

Az új csodadallam tényleg 24 perc alatt elűzi a szorongást?

🎵 Egy friss klinikai vizsgálat szerint már 24 percnyi, speciálisan megtervezett zenehallgatás is jelentősen enyhítheti a szorongás tüneteit...

hétfő 12:04

Az elavult rendszerektől a Cloudflare One-ig: Leáldozott az egylépéses átállások korának

A hálózati rendszermérnökök számára kevés dolog stresszesebb, mint amikor egy hétvége alatt kell átalakítani egy teljes infrastruktúrát, különösen, ha ez egy 30 ezres cégnél, több mint 1000 elavult alkalmazás új rendszerre való átkapcsolását jelenti...

hétfő 11:56

A káosznak vége: mobilon is rendezheted Spotify-listáidat

📷 Egy lényeges újdonság, hogy a Spotify mobilos alkalmazása hamarosan olyan funkcióval bővülhet, amelyre a felhasználók már 15 éve várnak: a lejátszási listák mappáinak kezelése közvetlenül telefonról is elérhető lesz...