2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

kedd 21:57

Az élet építőkövei a Ryugu aszteroidán megbújtak

🚀 Például az emberi örökítőanyag, a DNS és az RNS alkotóelemei nélkülük nem létezhetnének...

kedd 21:46

A Galaxy Z TriFold pillanatok alatt elkapkodták a boltokból

Miután alig két hónapig lehetett kapni az Egyesült Államokban, a Samsung leállítja a Galaxy Z TriFold forgalmazását...

kedd 21:36

Az alattomos vesebaj, amely ellen végre felcsillant a remény

💉 Ötvenes éveiben járó férfi érkezik az orvosi rendelőbe, vastag paksaméta leletekkel a hóna alatt...

kedd 21:23

Az Nvidia 2028-ig 360 billió forintért adna AI-chipeket – Elképesztő biznisz?

Az Nvidia vezére, Jensen Huang idén San Joséban, a GTC-konferencia megnyitóján bedobott néhány vad számot, de az igazi bombát egyértelműen a pénzügyek között robbantotta: szerinte 2028-ig legalább 1 billió dollárra, vagyis kb...

kedd 21:01

Az új ChatGPT-láz: már az ingyenes is meglepően okos

🚀 Itt az új menőség a ChatGPT-ben: a GPT-5.4 mini szinte szárnyakat ad a Free- és Go-felhasználóknak, akiket eddig a fizetősök lenéztek...

kedd 20:56

A nagy dobás: olcsóbb utalás a PayPal új eszközével

Emellett a PayPal most 70 országban tette elérhetővé a dollárhoz kötött digitális pénzét, a PayPal USD-t (PYUSD-t), ezzel több milliárd felhasználónak kínálva olcsóbb és gyorsabb nemzetközi fizetési lehetőséget...

kedd 20:45

Az égből csapott le egy meteorit, megrendítve a régiót

Kedden reggel hatalmas dörrenés rázta meg Északkelet-Ohiót és Pennsylvania egyes részeit, ami sokakat az ágyból is kiugrasztott...

kedd 20:34

A Google Gemini már mindenkinek személyre szabja a melót – vagy túl sok?

Mostantól az USA-ban mindenki – nem csak az előfizetők – szabadon kipróbálhatja a Gemini alkalmazást és a Chrome böngésző személyes intelligenciáját...

kedd 20:13

A következő vakcinaforradalom: a DNS-origami előzheti az mRNS-t

🧪 Érdemes megérteni, hogy az mRNS-alapú oltások a COVID-19 idején emberek millióinak életét mentették meg, ám ezek sem tökéletesek...

kedd 19:56

A Fortnite visszatért, és letarolja a Google Play Áruházat

🚀 Végre vége a marakodásnak: március 19-én világszerte visszatér a Fortnite a Google Play Áruházba!..

kedd 19:46

A filléres IP KVM-ek tárt kaput nyitnak a támadóknak

🔒 Kicsi, olcsó és korántsem ártalmatlan eszközök veszélyeztethetik a céges IT-rendszereket: az IP KVM-ek – amelyeket rendszerint 11 ezer és 36 ezer forint közötti áron lehet beszerezni – lehetővé teszik, hogy rendszergazdák távolról kezeljenek számítógépeket, akár BIOS- vagy UEFI-szinten is, még az operációs rendszer betöltődése előtt...

kedd 19:34

A futball YouTube-ra költözik – a FIFA legújabb dobása

⚽ A 2026-os világbajnokság körül már most óriási a pezsgés – legalábbis ami azt illeti, hol nézhetjük majd a meccseket...

kedd 19:23

Az Intel új csúcsprocesszorokkal turbózza a gamer laptopokat

🖥 Az Intel ismét erősíti a prémiumkategóriás gamer laptopok mezőnyét két frissített csúcslapkával: a Core Ultra 9 290HX Plus-szal és a Core Ultra 7 270HX Plus-szal...

kedd 18:01

Az új Switch 2 új életet lehel a régi játékokba

A Nintendo Switch 2 frissítése egy olyan újdonságot hozott, ami rengeteg rajongónak kedvezhet...

kedd 17:56

Az elátkozott Samsung-gépeken visszatért a C meghajtó

💀 Bizonyos, Windows 11‑et futtató Samsung‑laptopokon komoly problémák jelentkeztek a C‑meghajtó elérésével, fájlok megnyitásával és alkalmazások indításával kapcsolatban...

kedd 17:46

A belső óra ereje: az időzítés forradalmasítja a gyógyítást

Az utóbbi időben egyre több kutatás támasztja alá, hogy a szervezet belső órája, vagyis a cirkadián ritmus nemcsak az alvásra vagy étkezésre van hatással, hanem a gyógyszerek hatékonyságára is...

kedd 17:35

Az áttörés: így verik vissza a vese rejtett ellenségeit

A vese megbetegedései sokáig csendben, szinte észrevétlenül támadnak, különösen akkor, ha gyógyszerek hatására alakulnak ki az első problémák...

kedd 17:23

Az MI vezetői válságot hoz: hová tűnnek a főnökök?

Jó, jó, persze, hogy mindenki az MI-lázról beszél, de most tényleg jön a Nagy Lapítás...

kedd 17:12

Az aszteroida, ami genetikailag megelőzhet minket: becsapódik a Ryugu?

Ryugu, a Földtől 300 millió kilométerre keringő aszteroida, igazi űrbéli sztár lett, miután a japán Hayabusa2 űrszonda két mintát is hazahozott róla: egyet a felszínről, egy másikat a mélyebb rétegekből...

kedd 17:03

Az új gravitációs hullámok az univerzum rejtett dallamát játsszák

🎶 Például egy hatalmas csillagrobbanás vagy két szupernehéz fekete lyuk összeolvadása olyan zörejeket kelt a világegyetemben, amelyek a földi léptékkel felfoghatatlan távolságokon is átsöpörnek...

kedd 16:57

Az MI-ügynökök védelmének öt kőkemény aranyszabálya

🛡 Az MI-ügynökök megjelenése új korszakot nyit a vállalati működésben. Ezek a rendszerek nem egyszerű segédprogramok, nem pusztán fejlettebb chatbotok, hanem autonóm szereplők, amelyek önállóan képesek tervezni, dönteni és végrehajtani...

kedd 16:46

Az éjszakai tűzoltó drónok végre megérkeznek Aspenbe

🛰 Aspenben új fejezetéhez érkezik a csúcstechnológiás tűzoltás, ahol idén nyáron bevetik az első, kifejezetten erdőtüzek elleni harcra tervezett drónokat...

kedd 16:35

Az El Niño tombolása: példátlan hőhullámok közelednek

🔥 A légkörkutatók egy különösen erős, úgynevezett szuper El Niño kialakulására figyelmeztetnek, amely akár már a 2026-os hurrikánszezon végére is bekövetkezhet...

kedd 16:23

A Microsoft visszakozik: nem tolja rá a Copilotot a gépekre

December elején a Microsoft automatikusan elkezdte telepíteni a Microsoft 365 Copilot nevű MI-asszisztenst tartalmazó alkalmazást minden olyan Windows-gépre, ahol a Microsoft 365 irodai programcsomag megtalálható volt, kivéve a jogszabályok miatt az Európai Gazdasági Térség országaiban...

kedd 13:56

A Denon DP-500BT, a Bluetooth-os lemezjátszó, ami odaver

🎵 A Denon most dobja piacra a DP-500BT nevű lemezjátszót, ami egyszerre hozza a klasszikus vinyl-élményt és a menő, nagy felbontású Bluetooth-streamelést...

kedd 13:34

Az ADHD-s agy ébren is álomszerű transzba eshet

Különös agyi működést figyeltek meg a kutatók azoknál, akik figyelemhiányos hiperaktivitás-zavarral (ADHD) élnek: miközben látszólag éberek, agyuk mégis időnként álomszerű, alváshoz hasonló állapotba kerül...

kedd 13:24

Az elveszett Doggerland erdei újraélednek az Északi-tenger mélyén

🌲 Az Északi-tenger mélyén rejtőzik Doggerland, egykor Nagy-Britanniát és Európát összekötő földsáv, amely 16 ezer évvel ezelőtt buja erdőkkel és változatos állatvilággal teli élőhelyet kínált – jóval korábban, mint azt eddig gondolták...

kedd 11:56

Az Nvidia új csodafegyvere: végre biztonságos lesz az OpenClaw?

🛡 Az Nvidia komoly lépést tett az MI-biztonság terén: bemutatta a NemoClaw platformot, amely vállalati szintű MI-ügynökök futtatását teszi lehetővé saját, helyben működő hardveren...

kedd 11:45

Egy elterjedt növényvédőszer drámaian megduplázhatja a Parkinson-kór kockázatát

🐛 Egy friss kutatás szerint a klórpirifosz nevű, világszerte elterjedten használt növényvédőszer hosszan tartó hatása összefüggésbe hozható a Parkinson-kór jelentős kockázatnövekedésével...