2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

szombat 20:56

Az egészségügyi kütyük hódítanak – de ki fizeti a cechet?

💳 Ebből következően érdemes megérteni, hogy az egészségügyi elektronikai eszközök, például a vércukorszint-mérők, ultrahangos tapaszok és vérnyomásmérők elengedhetetlenek lehetnek a betegek állapotának biztonságos nyomon követésében...

szombat 20:37

A kaliforniai szexuális deepfake-tilalom leállíthatja az xAI-t

🚫 A héten a kaliforniai főügyészség vizsgálatot indított az Elon Musk-féle xAI ellen, miután a Grok nevű chatbotjukat azzal vádolták, hogy nők beleegyezése nélkül készít szexuális tartalmú deepfake-képeket...

szombat 20:20

A bíróság nekimegy az Anna’s Archive-nak – számít ez egyáltalán?

📖 Többek között az egyik leghíresebb árnyékkönyvtár, az Anna’s Archive is célkeresztbe került: a szövetségi bíróság arra kötelezte az oldalt, hogy törölje minden, a WorldCat-ből illegálisan leszedett adatát, álljon le az adatokkal kapcsolatos bármilyen tevékenységgel, és tiltsa meg a további adatkaparást...

szombat 20:01

Az MI-forradalom rejtett győztesei: nem csak a techóriások

Nehéz elhinni, de az MI már nem csak a chipgyártókról és szoftvercégekről szól...

szombat 19:55

Az apró rengések elárulják Kalifornia félelmetes titkát

Észak-Kalifornia alatt olyan rejtett és összetett törésrendszer sejlik fel, amelyre korábban senki sem gondolt...

szombat 19:19

Az áttörést hozó kristályszivacs átírja a gyógyszerkutatás szabályait

Érdemes megvizsgálni, hogy az APF-80 nevű új fém-organikus váz (MOF) miként alakítja át a természetes vegyületek szerkezetének feltárását, és ezzel jelentős előrelépést hoz a gyógyszertervezés és más anyagtudományi területek számára...

szombat 19:04

Az OpenAI és Musk 10 milliárd dolláros terve: kriptoláz és MI

🤖 2018 elején Elon Musk néhány hétig komolyan támogatta azt a tervet, hogy az OpenAI 10 milliárd dollárt – azaz mintegy 3 740 milliárd forintot – gyűjtsön össze egy kezdeti tokenkibocsátás (ICO) segítségével...

szombat 18:55

Az új Windows-frissítés lefagyasztja a gépeket: leállítás felejtős

Idén januárban sok Windows 11 (23H2) felhasználó szembesülhetett egy szokatlan jelenséggel: hiába próbálták leállítani vagy hibernálni a gépüket, a PC egyszerűen nem hagyta magát kikapcsolni...

szombat 18:38

A fononlézer lehet az okostelefonok következő nagy dobása

📱 Lényeges szempont, hogy a mérnököknek sikerült olyan berendezést készíteniük, amely a legapróbb „földrengéseket” képes előidézni: ezek a mikrochip-méretű szeizmikus rezgések nyithatnak utat a jövő okostelefonjainak – kisebbek, gyorsabbak és energiatakarékosabbak lehetnek, mint valaha...

szombat 18:19

A Verizon újabb bakija: 7000 forint kártérítés a mobilkimaradásért

Szerda délután komoly szolgáltatáskiesés bénította meg a Verizon hálózatát, ami miatt órákon át nem lehetett sem hívni, sem SMS-t küldeni vagy fogadni, a mobilnet pedig teljesen elérhetetlen volt...

szombat 18:02

Az észrevétlen, de tényleg működő okosszemüveg: Even Realities G2

Erre utal többek között az is, hogy a technológiai világban szinte minden stand tele volt Meta Ray-Ban-másolatokkal, mégis az Even Realities G2 okosszemüveg messze kitűnt közülük...

szombat 17:55

A kutatók most visszavágtak: feltörték az MI-tolvajokat

A StealC nevű adatlopó vírus gyorsan népszerűvé vált a dark weben, mivel hatékonyan rejti el magát, és hatalmas mennyiségű adatot képes ellopni...

szombat 17:37

A memóriaóriás gigaüzeme tarolja az erdőt, lázadnak a zöldek

A Micron megkezdte New York államban az óriási DRAM-gyár építését, amely akár 50 000 új munkahelyet teremthet, miközben az MI-forradalom miatt az égbe szöknek a memóriák árai...

szombat 17:02

Az évszázad pere: Musk 47 ezermilliárdot követel az OpenAI-tól

💸 Elon Musk egészen döbbenetes, 29 000 és 47 000 milliárd forint közötti kártérítést követel az OpenAI-tól és a Microsofttól, mondván: a cég elárulta nonprofit küldetését, amivel becsapta őt...

szombat 16:57

Az óceánok védelmében új korszak: életbe lépett a nyílt tengerek egyezménye

🌊 2026. január 17-én hatályba lépett a világ első jogilag kötelező érvényű egyezménye, amely a nemzetközi vizek tengeri élővilágának védelmét célozza...

szombat 16:39

Az MI-aranyláz kifulladt: Ömlik a pénz, de mire megyünk vele?

Első pillantásra úgy tűnt, hogy az MI forradalma megállíthatatlanul robog előre, és semmi sem állhat az útjába...

szombat 16:20

A filléres 400 GbE-s switch tarol a profiknál

📈 A MikroTik legújabb dobása, a CRS804 DDQ típusú switch egy igazi nagyágyú a gyors hálózatépítés világában: mindössze négy darab 400GbE portot kínál, mégis hatalmas teljesítményt sűrít fél rackszélességű házába...

szombat 16:02

A test, amely szerveket veszít, mégis túlél – meddig?

🧠 Ezt a jelenséget jól illusztrálja a Gyalog galopp (Monty Python and the Holy Grail) kultikus jelenete, amelyben Artúr király levágja a Fekete Lovag végtagjait, ő pedig hősiesen azt állítja: „Ez csupán karcolás.”..

szombat 15:57

Az okosórák új királyai: 2026 legjobb vételei

Nehéz elhinni, de az okosórák lassan mindent tudnak: egészségfigyelés, értesítések, biztonság, sőt, még a doomscrollingról is leszoktatnak...