2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 12:23

Az egyik legnépszerűbb WordPress-bővítményt vírusterjesztésre fogták be

Számos WordPress- és Joomla-oldalt veszélyeztet a népszerű Smart Slider 3 bővítményt ért legutóbbi támadás...

MA 12:02

A négynapos munkahét mindent átírna a munka világában?

Az utóbbi időben egyre többen emlegetik a négynapos munkahetet mint a jövő kulcsát — feltéve, ha megfelelően vezetik be...

MA 11:56

Az Alibaba nagy dobása: új MI-modell forradalmasíthatja a videózást

A kínai technológiai óriás, az Alibaba Cloud 2 milliárd jüant (kb...

MA 11:45

A Koppintással megosztás felforgatja az Androidot

📱 Közeledik az Android egy várva várt újítása: a Tap to Share lehetőséget kínál majd fotók, videók, névjegyek, helyadatok és linkek villámgyors átvitelére két telefon között...

MA 11:34

A Microsoft tényleg ellehetetleníti a Firefoxot az Edge trükkjeivel?

A Firefox böngészőt fejlesztő Mozilla éles kritikával illette a Microsoftot, amiért a Windows operációs rendszer és a Copilot mesterséges intelligencia egyre szorosabb integrációja ellehetetleníti a független böngészők versenyét...

MA 11:23

A legújabb Smart Slider-botrány: fertőzött frissítés bénította meg a WordPress- és Joomla-oldalakat

⚠ A népszerű Smart Slider 3 Pro bővítmény frissítőrendszerét sikeresen támadták meg hackerek, majd ártó szándékú frissítést juttattak el a WordPress- és Joomla-rendszerekre...

MA 11:13

Az Orion szivárgó szelepe nem állítja meg az Artemis II-t

A második Artemis-küldetés döntő fázisában jár, amelyben a NASA Orion űrhajója tökéletesen teljesít – azonban egy megmakacsolt szelep miatt mégis újratervezés vár a következő holdrepülésre...

MA 11:01

Rekord tűzveszély fenyegeti idén nyáron az amerikai Nyugatot

Az Egyesült Államok nyugati részén a közeljövőben a szokásosnál jóval nagyobb erdőtüzekkel kell szembenézni...

MA 10:57

A ChatGPT Pro most féláron – kétszeres tempóval!

🚀 A ChatGPT igazán nagy dobással rukkolt elő: mostantól havonta 36 ezer forintért (100 USD) lehet hozzájutni a Pro-csomaghoz az USA-ban, amellyel ötször gyorsabban haladhatsz a kódolással, mint a Plus változattal...

MA 10:36

A MI-chatbotok titkos fegyvere: észrevétlenül vásárlásra csábítanak

Az online vásárlás világa gyorsan átalakul, ahogy a modern MI-technológiákat egyre szélesebb körben vetik be termékajánlásra és reklámozásra...

MA 10:29

A kátyúk tarolnak az utakon – érkezik a digitális javítás?

Felmerül a kérdés, hogy a városok mennyire tudják követni az utak állapotát, hiszen egy váratlan kátyú nemcsak bosszúságot, hanem akár súlyos károkat is okozhat az autóknak...

MA 10:23

A zsarolóvírus a ChipSoftot is térdre kényszerítette

Többek között a holland egészségügyi informatikai piac egyik legnagyobb szereplője, a ChipSoft is kénytelen volt leállítani weboldalát és digitális szolgáltatásait, miután zsarolóvírus-támadás érte...

MA 10:15

Az utolsó próba: tétre megy az Artemis II hazatérése

🚀 Nyolc mozgalmas űrbeli nap után az Artemis II legénysége és a NASA teljes csapata a küldetés utolsó, legkeményebb próbájára készül: az űrhajósoknak épségben kell hazatérniük...

MA 10:10

Az univerzum apró vörös fényei: a mutáns rája-raj titkai

🐡 Érdekes felvetés, hogy a galaxisok fejlődésének rejtett szakaszait egy különleges, távoli rendszer segítheti megfejteni, amelyet az űrtávcsövek csaknem véletlenül fedeztek fel...

MA 10:03

Az olajárak tombolnak: pánik söpör végig a piacokon

Különösen említést érdemel, hogy az olaj világpiaci ára, a Dated Brent, az utóbbi napokban vad kilengéseket produkált, ami súlyos stresszt jelez az energiaszektor szereplőinél...

MA 09:57

Megjött az első valódi kriptóbiztosítás: itt a Nexus Mutual

💰 Több mint 10 ezer tagja van már a Nexus Mutualnak, amely 2019 óta épít decentralizált biztosítási piacot az Ethereum-blokkláncon...

MA 09:50

Az ősi koreai elit ára: vér és áldozat

🖉 Felmerül a kérdés, hogyan éltek, szerveződtek és gyakorolták a hatalmat másfél évezreddel ezelőtt az ősi Koreában...

MA 09:43

Az új VENOM-támadás a felsővezetőkre csap le

😈 Erre példa, amikor egy ismeretlen hackercsoport kifejezetten nagyvállalatok felsővezetőit próbálja átverni, és ellopni Microsoft-fiókjaik hitelesítő adatait...

MA 09:22

Az új Gemini-noteszek végre együttműködnek a NotebookLM-mel

A Google Gemini mostantól egy vadonatúj funkcióval, a noteszekkel frissül, amelyek zökkenőmentesen szinkronizálnak a NotebookLM-mel...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/10

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Greeny Word Journey (iPhone/iPad)A Greeny Word Journey egy lenyűgöző szókirakó játék, mely élvezetesen fejleszti a szókincset és a logikai képességeket...

MA 09:09

A strapabíró tablet, ami mindent kibír: Dell Pro Rugged 12 teszt

🛡 Ha valaki kemény terepen dolgozik, nem elég egy hétköznapi tablet – a Dell Pro Rugged 12-t viszont mintha kifejezetten sivatagi viharhoz, extrém hideghez vagy zuhogó esőhöz találták volna ki...

MA 09:01

Az Apple nekirohan saját boltjainak: a szakszervezeti kezdeményezés is áldozatul esik

Hiába a menő dizájn, a hűvös tech-hangulat és a fényes Apple-logó, három amerikai bolt örökre lehúzza a rolót: Trumbull (Connecticut), Escondido (Kalifornia) és Towson (Maryland) júniusban végleg bezárnak...

MA 08:57

Az új Chrome megálljt parancsol a cookie-tolvajoknak

🔒 Fontos kérdés, hogy miként óvhatjuk meg személyes adatainkat az egyre fejlettebb kiberbűnözőktől...

MA 08:50

A félelmetes Doki Doki Irodalmi Klub eltűnt a Google Playről

😔 Külön említést érdemel, hogy a Doki Doki Irodalmi Klub (Doki Doki Literature Club, DDLC) mindössze néhány hónappal a debütálása után lekerült a Google Play Áruház kínálatából...

MA 08:43

Az 500 leggazdagabb ember vagyona egy nap alatt kilőtt

A Wall Streeten kedden elképesztő emelkedést láthattunk, miután Donald Trump visszavonta korábban belengetett fenyegetését, ezzel csillapítva a tőzsdei kereskedők félelmeit...

MA 08:36

Az év kriptóbotránya: 45 millió dolláros lehúzás, lenyúlós banda, visszaszerzett pénz

💸 Kibuktak a menő netes csalók, akik 45 millió dollárnyi kriptót akartak lecsapolni a gyanútlanoktól, de a rendőrök átlépték a digitális határokat, és 4,4 milliárd forintnyi ellopott összeget zároltak...

MA 08:30

A Pixel MI-s hangpostája mostantól igazán személyes

A Pixel telefonokon tavaly debütált Take a Message funkció modernizálta a hangpostát, valós idejű átiratokkal és MI-alapú kezeléssel...

MA 08:23

Az új áldozatok: ügyfelek tömege menekül a VMware-től

🚪 A Broadcom tavaly novemberi VMware-felvásárlása óta sok, korábban lojális ügyfél fordított hátat a piacvezető virtualizációs platformnak...

MA 08:01

A mesterséges intelligencia elveszi a munkád – visszatérni pokolian nehéz lesz

Azok a dolgozók, akiket az MI fejlődése miatt bocsátanak el, jóval nehezebben találnak új munkahelyet, és jelentős gazdasági hátrányokkal néznek szembe...