2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 20:58

A DocuSign óva int: ne bízd az MI-re a szerződéseket

Hihetetlen, de igaz, hogy a digitális szerződéskötés sokkal több, mint néhány kattintás egy weboldalon...

MA 20:37

A mesterséges intelligencia már kiszúrja a gyomokat, a gazdák ujjonganak

🌾 A gazdák életét egy új MI-modell könnyíti meg Seattle-ben, ahol a Carbon Robotics nevű cég olyan robotokat gyárt, amelyek lézerekkel irtják a gyomnövényeket...

MA 20:20

Az állami hekkerek feltörték a Notepad++-t

A Notepad++ fejlesztői bejelentették, hogy a népszerű szövegszerkesztőt célzott kibertámadás érte, amelynek hátterében valószínűsíthetően egy államilag támogatott szereplő áll...

MA 20:01

A csodahozamot ígérő átverések világszerte terjednek

A hamis, szuperhozamot ígérő befektetési programok (HYIP) terjedése újabb csúcsra ért: ezek a csalások irreális hozamokat, például 40%-os nyereséget 72 óra alatt ígérnek, miközben semmilyen valódi megtérülést nem biztosítanak...

MA 19:57

A kezdő futó felszerelése: mi kell, és mi pénzkidobás?

Felmerül a kérdés, hogy mire van szükség, ha most kezdesz el futni...

MA 19:38

Az első MI-közösségi oldal, ahol robotok robotoknak posztolnak

🤖 Fontos kérdés, hogy mi történik, ha a közösségi oldalakon nem emberek, hanem MI-k kommunikálnak egymással...

MA 19:22

Az örökké változó Univerzum: üveglemezek és óriástávcsövek nyomában

Az éjszakai égbolt egy évszázadnyi története rejtőzik poros üveglemezeken és a legmodernebb csillagászati szuperszámítógépek adatfolyamában...

MA 19:01

A Starbucks robotokra bízná a nagy megújulást

A Starbucks hatalmas összegeket fektet MI-alapú automatizálásba: robotokat tesztelnek, amelyek átveszik az autós kiszolgálásnál a rendeléseket, virtuális asszisztensekkel segítik a baristák munkáját a receptek és a beosztások terén, valamint digitális rendszerekkel mérik a készleteket...

MA 18:55

Az új fehérje áttörést hozhat a depresszió és bélpanaszok kezelésében

💡 A krónikus stressz kikezdi a bél védőrétegét, fokozva az áteresztőképességet, amit a köznyelv csak „lyukas bél” szindrómaként emleget...

MA 18:37

Az óceán rejtőzködő zsenije, akit a saját esze veszélyeztet

Érdemes megvizsgálni, hogy egy látszólag sikeres evolúciós stratégia hogyan lehet végzetes gyengeség forrása a Föld egyik legelterjedtebb élőlénye számára...

MA 18:21

Az MI-uralta munkahelyek 2026-os rejtett buktatói

Érdemes megvizsgálni, hogy az MI-vel kapcsolatos várakozások és a valóság között milyen szakadék tátong napjainkban...

MA 18:01

Az MI a bűnbak, vagy máshol van a gond?

🤔 Az elmúlt évben több mint 50 ezer elbocsátást indokoltak hivatalosan mesterséges intelligenciával...

MA 17:37

Az iPhone-ra megérkezik a Vivo és az Oppo teleobjektív-kiegészítője

A PGYTech különleges kamerás szettel teszi profibbá az iPhone 16 Pro és Pro Max, illetve az iPhone 17 Pro és Pro Max készülékeket...

MA 17:19

A TikTok leáll, Amerika forrong – itt az új vihar

Amerikában napokra teljesen leállt a TikTok, miután a téli viharok miatt megsérült az Oracle egyik legfontosabb, általa üzemeltetett adatközpontja...

MA 17:02

Az indiai kormány gigantikus adókedvezménnyel vadássza a felhőóriásokat

💸 India újabb lépést tett, hogy a világ technológiai központjává váljon, és 20 évig tartó adómentességet kínál azoknak a külföldi cégeknek, amelyek Indiából kiszolgálva nyújtanak felhőalapú adatokat a világ bármely más országába...

MA 16:55

Az Oracle 18 ezermilliárdot önt az MI-lázba

💸 Az Oracle részvényei 5%-ot emelkedtek a hétfői kereskedésben, miután a vállalat bejelentette, hogy 2026-ban 16 500–18 300 milliárd forintnyi tőkét tervez bevonni adósság és részvénykibocsátás útján...

MA 16:20

Az MI feltárja a DNS sötét anyagát, orvosok tüdőt gyártanak

🔮 A tudomány világát új áttörések rázzák fel: az MI végre közelebb vihet minket a DNS titkainak megfejtéséhez, eközben orvosok először tartottak életben beteget mesterséges tüdővel, és egy egzotikus növény látványosan cáfolja az evolúció klasszikus elméleteit...

MA 16:02

Az új Pixel témacsomagok már úton, az MI-ikonokra még várunk

📱 A Google nemrég visszavonta a Gonosz témacsomagot (Wicked) a Pixel telefonokról, amelyet a Gonosz: Mindörökké (Wicked: For Good) című film bemutatója alkalmából indítottak Ariana Grande közreműködésével...

MA 15:55

Az MI-ben őrségváltás: a Microsoftnál tarol a Claude Code

A Microsoft fejlesztői már hónapok óta összevetik az Anthropic-féle Claude Code, az Anysphere Cursor és a GitHub Copilot előnyeit és hátrányait, keresve a legjobb MI-kódoló eszközt...

MA 15:38

Az MI bekeményít: a CFO-knak fel kell kötni a gatyát

🛡 A vállalati MI-stratégia középpontjába egyre gyakrabban a pénzügyi vezetők (CFO-k) kerülnek...

MA 15:19

Az olimpiai nyitóünnepség, amiről beszélni fog a világ

A 2026-os milánói-cortinai téli olimpia nyitóünnepsége minden eddiginél nagyobb látványosságot ígér...

MA 15:03

A 7 végzetes hely, ahová soha ne tedd az otthoni kamerát

Az okos otthoni biztonsági kamerák manapság tele vannak fejlett funkciókkal: vezeték nélküli megoldások, mozgásérzékelés, akár MI-alapú képességek...

MA 14:56

Az otthoni biztonsági kamerák üzemidő-bajnokai

Nem mindegy, mennyi ideig húzza egy akkumulátorról a kültéri, vezeték nélküli biztonsági kamerád – főleg, ha a cél az, hogy szinte teljesen megfeledkezhess arról, mikor kell majd töltened...

MA 14:38

Az új Pixel 10a unalmasnak látszik – épp ettől zseniális

👍 A Pixel 10a első pillantásra egyetlen izgalmat sem tartogat: a dizájn szinte ugyanaz, a hardver szintén, a fejlesztések inkább kozmetikaiak, mint forradalmiak...

MA 14:22

Az Oukitel RT10: ipari extrákkal turbózott, szuperstrapabíró tablet

🛡 Aki munkahelyi környezetbe keres igazán masszív táblagépet, az Oukitel Industry RT10-zel jó eséllyel nem nyúl mellé...

MA 14:01

Az új kriptóhullám: zuhannak a részvények, áll a Bitcoin

📈 A Bitcoin árfolyama közel 1%-ot emelkedett, most 77 000 dollár, azaz nagyjából 28,1 millió forint körül jár...

MA 13:55

Az első szingapúri űrügynökséggel elrajtol Ázsia új űrversenye

Szingapúr áprilisban elindítja első nemzeti űrügynökségét, hogy vezető szerepet vállaljon a gyorsan növekvő űriparban...

MA 13:18

A Pentagonnal csap össze az Anthropic: botrány a 72 milliárdos MI-szerződés miatt

Az Anthropic és a Pentagon között 72 milliárd forint (200 millió USD) értékű MI-szerződés sorsa komoly veszélybe került...

MA 12:55

A várva várt Bitcoin-szuperciklus elmarad? CZ lehűti a kedélyeket

💸 Hirtelen bizonytalanság: a szuperciklus lekerült a napirendről Changpeng Zhao, vagyis CZ, a Binance korábbi vezetője még hetekkel ezelőtt is arról beszélt, hogy soha nem látott kripto-szuperciklus jöhet a tömeges intézményi befektetések és a kriptóbarát szabályozás miatt...