2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 17:23

Az egyiptomi múmia gyomrában bukkantak rá az Íliász egy darabjára

🗡 Erre utal többek között az, hogy régészek Egyiptomban egy római kori múmia hasüregében Homérosz Iliászának (The Iliad) papiruszára bukkantak...

MA 16:56

A Fragmentary Order: fájdalom, kihívás, véres mámor – nem az Arc Raiders

Még mindig sokan szeretik azt az izgalmat, amit csak egy igazi, keményvonalas extraction shooter képes adni, és Nikita Buyanov, a legendás Tarkov atyja ezt most keményen az arcunkba is tolja a Fragmentary Orderrel...

MA 16:45

Az új bélflóra-helyreállítás megelőzheti a visszahízást Ozempic után

Az elhízás elleni szerek, mint az Ozempic és a semaglutid segítségével sokan jelentős súlytól szabadulnak meg, ám a legtöbben a kezelés abbahagyását követően rövid idő alatt visszahíznak...

MA 16:34

Az új Framework 13 Pro akkuidőben mindenkit leiskoláz

💻 A hordozható gamer gépeken dolgozók életét gyakran keseríti meg a lemerülő akkumulátor réme, de most úgy tűnik, új időszámítás kezdődhet: a Framework 13 Pro meglepően hosszú üzemidőt nyújt...

MA 16:23

A Marson tényleg óriási „sárkánypikkelyek” hullámzanak a felszínen?

🐳 A NASA Curiosity marsjárója olyan furcsa, óriási, sokszög alakú képződményeket fotózott a vörös bolygón, amelyek első pillantásra leginkább hatalmas, fosszilis hüllőpikkelyekre emlékeztetnek...

MA 16:12

Az öt legjobb ok, hogy most vegyél ventilátort – ne várj a kánikuláig

👀 Ahogy beköszönt a jó idő, hirtelen megemelkedik a hőmérséklet, sorra lobban fel a grillek lángja, és egy szempillantás alatt elkapkodják a boltokban a ventilátorokat...

MA 16:02

A DJI Lito X1 lett a belépő drónok új királya

🚁 A DJI új Lito sorozata alaposan felforgatja a kezdő drónok piacát...

MA 15:56

Az OpenAI ingyenes adatvédelmi eszköze valóban letarolja a piacot?

Az OpenAI jelentős lépést tett az adatvédelem felé a Privacy Filter nevű új, nyílt forráskódú modell megjelenésével...

MA 15:45

Az inflációs sokk megakasztja a Bitcoin raliját

💸 Az elmúlt hetekben úgy tűnt, hogy a Bitcoin újabb áttörés előtt áll, amikor egészen 80 000 dollárig (kb...

MA 15:34

Az MI feletti hatalomért folyik a könyörtelen küzdelem

Az összetett MI-ügynökök bevezetése a vállalatok életébe alaposan felforgatja az eddig ismert gyakorlatokat...

MA 15:24

Az örökletes süketség áttörő terápiája végre visszahozhatja a hallást

A világ legnagyobb és leghosszabb ideig tartó génterápiás vizsgálata 90%-os javulást mutatott azoknál, akiknél veleszületett süketséget kezeltek...

MA 15:12

Az OpenAI forradalma: megérkeztek a digitális kollégák

Az irodai munka jövőjét alapjaiban forgathatja fel az OpenAI legújabb fejlesztése: a Workspace Agents lényegében lehetővé teszik, hogy vállalati környezetben saját MI-ügynököket hozzunk létre, akik nemcsak önállóan dolgoznak, de egyre több alkalmazással működnek együtt, például a Slackkel, a Salesforce-szal, a Google Drive-val vagy a Microsoft programjaival...

MA 15:01

A felnőttként két lábon járó ősi krokodilrokon

🐍 Egy nemrég leírt, különös hüllőfaj teljesen új fényt vet arra, miként változhattak meg a mozgásformák az ősi állatok növekedése során...

MA 14:56

Az olaj árrobbanása megint padlóra küldi a bitcoint?

A bitcoin enyhén veszített értékéből, miután majdnem elérte a 80 000 dolláros (28,8 millió forintos) szintet...

MA 14:45

Az ember és a mesterséges intelligencia határa elmosódik

A web gyorsan változik, és az MI-központú fejlesztések is érezhetően befolyásolják a mindennapi használatot...

MA 14:34

A mesterséges intelligenciás pingpongrobot már a profikat is legyőzi

🏓 Megérkezett Ace, a Sony új, MI-vezérelt asztalitenisz-robotja, amely már képes felvenni a versenyt a sportág legjobbjaival...

MA 14:23

A Hatalom és Mágia Hősei diadalmasan visszatér – hamarosan kipróbálhatod

🏆 Több mint egy évtized után új fejezet nyílik a legendás stratégiassorozatban: a Hatalom és Mágia Hősei: Ősi kor (Heroes of Might and Magic: Olden Era) április 30-án érkezik korai hozzáféréssel PC-re...

MA 13:56

Az FTX elherdálta a jövő aranybányáját?

Amikor 2023 áprilisában az FTX csődbiztosa 5%-os részesedést adott el a Cursor nevű MI-fejlesztő startupban 70 millió forintért, senki sem gondolta volna, hogy alig egy év múlva ez a csomag éppen 1 100 milliárd forintot érne...

MA 13:45

Az MI-háború új felvonása: a Google megkerüli az Nvidia-adót

🤓 Las Vegasban, egy exkluzív bemutatón a Google lerántotta a leplet a nyolcadik generációs Tensor Processing Unitokról (TPU-król), vagyis vadonatúj MI-chipekről...

MA 13:34

Az MI-raj: drága illúzió vagy valódi áttörés?

Sokan gondolják, hogy minél több MI-modellt pakolnak egymás mellé, annál gyorsabb, pontosabb és okosabb megoldást kapnak...

MA 13:23

Az AGI‑processzor, amely fenekestül felforgatja a chippiacot

Különösen igaz ez akkor, ha az okoseszközök és a virtuális asszisztensek már nem elégszenek meg az egyszerű parancsvégrehajtással...

MA 13:13

Az MI levadássza a Firefox sebezhetőségeit – vége a nulladik napi hibáknak?

Érdekes felvetés, hogy hamarosan nem emberek, hanem MI-k találják meg a legtitkosabb szoftverhibákat...

MA 13:01

Az új agyi chip átírhatja az MI energiafogyasztásának szabályait

⚡ A Cambridge-i Egyetem kutatói áttörést értek el egy olyan apró nanoelektronikai eszközzel, amelynek segítségével akár 70 százalékkal csökkenthető a MI-rendszerek energiafogyasztása...

MA 12:56

A Föld mélyét ősi erők formálják

🌎 Földünk felszíne alatt elképzelhetetlenül lassú áramlások dolgoznak a köpeny legmélyebb zónáiban, ahol az anyag mozgásai együtt járnak a tektonikus lemezek vándorlásával...

MA 12:45

Az Apple ünnepelt vezére: Tim Cook sikerei és hibái

🏆 Tim Cook, az Apple leköszönő vezérigazgatója, a munkatársak előtt tartott megbeszélésen nyíltan beszélt karrierje legnagyobb kihívásairól és eredményeiről...

MA 12:34

Az új űrruhák veszélybe sodorhatják a következő amerikai holdraszállást

Az amerikai holdraszállás újabb hatalmas késést szenvedhet, mert a következő generációs űrruhák fejlesztése jelentősen elmaradt az ütemtervtől...

MA 12:23

Az idegrendszer kódja: mi zajlik a depresszió sejtjeiben?

Világszerte több mint 264 millió embert sújt a depresszió, mégis mostanáig rejtély maradt, pontosan mely agysejtek érintettek...

MA 12:01

Az autoimmun csapda: egy tinédzser titokzatos kálváriája

Fontos kérdés, hogy milyen az, amikor valakinél a klasszikus cukorbetegség tünetei mellett más, ritkább probléma is jelentkezik...

MA 11:43

Disclosure Day – Az idegenek köztünk élnek? Spielberg új filmje mindent felforgat

Az első kedvcsinálóval végre megérkezett Steven Spielberg A Felfedés Napja (Disclosure Day) című sci-fi filmjéhez az első igazi pillantás az idegenekre is...