2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 21:57

Itt a beépített videóhívás: forradalom az üzenetküldésben

📺 Az SMS világa évek óta lemaradásban van az olyan modern alkalmazásokhoz képest, mint a WhatsApp vagy az iMessage, ahol könnyedén lehet váltani szöveges üzenetküldésről hívásra, és a formázási lehetőségek is jóval szabadabbak...

MA 21:46

Az MI forradalmasítja a matekot: közeleg a gépi bizonyítás kora?

🧠 Külön említést érdemel, hogy egyre közelebb kerül a tudomány ahhoz, hogy matematikai bizonyításokat gépekkel ellenőrizzenek, garantálva ezzel azok helyességét...

MA 21:23

Az EU górcső alá veszi a Snapchat gyerekvédelmi hibáit

🔍 Az Európai Unió hivatalos vizsgálatot indított a Snapchat működése kapcsán, mert felmerült a gyanú, hogy a platform nem tesz eleget a kiskorúak védelméért...

MA 21:15

Az Intel Core Ultra 270K és 250K Plus jók, csak minden drága

Különösen igaz ez akkor, ha új gép építésén vagy fejlesztésén gondolkodsz: ma már nem elég egy jó ár-értékű processzort találni, hiszen a memória-, SSD- és videokártya-árak miatt minden PC-alkatrész nehezen elérhető „jó vétel”...

MA 20:25

Az új Wi‑Fi 7 routerekbe tényleg megéri beruházni?

Például nemrég még felesleges pénzkidobásnak tartottam a Wi‑Fi 7 routerek beszerzését: túl drágák voltak, ráadásul csupán marketingfogásnak tűntek...

MA 20:12

Az északi-sarki jégolvadás újabb ijesztő csúcsot döntött

🔥 Az északi-sarki tengeri jégtakaró idén ismét történelmi mélypontra zsugorodott, miután a téli növekedési időszak végén mindössze 14,29 millió km²-re terjedt ki...

MA 20:01

A Pentagon új titkos fegyvere: az Xbox-kontroller

🕹 Az amerikai hadsereg legújabb csúcstechnológiás lézerfegyverei mögött egy egészen meglepő titok rejtőzik: nem más, mint a jól ismert Xbox-kontroller...

MA 19:56

Az antiprotonok megindulnak: történelmi áttörés a CERN-ben

A CERN kutatói történelmi bravúrt hajtottak végre: először sikerült teherautón szállítaniuk egy antiprotonfelhőt...

MA 19:44

A kínai AI-bizniszben ragadnak a Manus vezetői, miközben a Meta kaszál

Van itt egy kis kavar a kínai AI-szcénában! A Manus nevű, mesterséges intelligenciával foglalkozó startup Kínában indult, de tavaly áthelyezte bázisát és fő csapatát Szingapúrba...

MA 19:34

Az új Meta-csomag tényleg megkönnyíti a vállalkozók életét?

💼 Érdekes fejlemény, hogy a Meta nagyszabású újítással igyekszik fellendíteni a kisvállalkozói szférát, miközben a mesterséges intelligencia térnyerése meghatározza az üzleti világ jövőját...

MA 19:25

Az Intercom új MI-je letarolja az ügyfélszolgálati piacot

Felmerül a kérdés, hogy egy 15 éves, alapvetően ügyfélszolgálati platform hogyan tudja megelőzni a legnagyobb MI-óriásokat – mégis pontosan ezt állítja most az Intercom...

MA 17:57

A Hold rejtett árnyéka pajzsként védhet az űrsugárzás ellen

A Hold felszínén eddig ismeretlen, kozmikus sugárzástól védett „üregre” bukkantak a kínai Chang’e–4 szonda adatai alapján...

MA 17:47

A Mistral MI nagy dobása: ingyen adja hanggenerátorát

🎧 Az MI-alapú hangmegoldások piaca forrong, és mindenki az aranytojást tojó tyúkot keresi a vállalati ügyfelekért vívott harcban...

MA 17:34

Az iPhone-okra vadászó Coruna-kémszoftver még veszélyesebb lett

Az iOS-t futtató eszközökre leselkedő veszélyek új szintre léptek: a Coruna nevű exploitkeretrendszer a korábbi, hírhedtté vált Operation Triangulation továbbfejlesztett változata, amely már az Apple legújabb A17 és M3 processzorait, valamint az iOS 17...

MA 17:24

Az online csalók új csapdái: így védekezz most

Az online csalások ma már profi váltófutásra emlékeztetnek: különböző eszközök és szereplők alkotnak egy szövevényes láncot, amelyben mindenki a saját szakaszára specializálódott...

MA 17:13

A biztonság rémálma: közeleg a kvantumszámítógépek kora?

A digitális világban egyre többen tartanak attól, hogy az MI önállósodása alapjaiban forgathatja fel a társadalmat...

MA 17:01

A TikTokon tarol az új csaláshullám: üzleti fiókok a célpontok

💸 TikTok Business-fiókok estek visszaélések célpontjává egy új, kifinomult adathalász-támadásban. Az elkövetők olyan hamis weboldalakra csábítják az áldozatokat, amelyeket kifejezetten azért hoztak létre, hogy a biztonsági botok ne tudják felismerni őket...

MA 16:57

Az űrtávcsövet egy robot mentheti meg a pusztulástól

A NASA Neil Gehrels Swift Obszervatórium lassan végzetes pályát fut be...

MA 16:45

A deepfake röntgenek még az orvosokat is megtévesztik

Érdemes megvizsgálni, hogy milyen veszélyeket rejtenek a mesterségesen generált, úgynevezett deepfake-röntgenfelvételek, amelyek megtévesztően valósághűek – olyannyira, hogy még képzett radiológusok számára is szinte lehetetlen felismerni a hamisítványokat...

MA 16:34

Az agy titkos védőszelepe: áttörés a Parkinson-kutatásban

Az emberi sejtek védekezőképessége mindig is lenyűgözte a kutatókat, most pedig egy újabb titok lepleződött le, amely segíthet a Parkinson-kór leküzdésében...

MA 14:04

Az Avata 360: drónforradalom, vagy csak pörgünk körbe-körbe?

🚀 A DJI legfrissebb dobása, az Avata 360 drón nemcsak a panorámadrónozás világát forgatja fel, hanem az otthoni filmezés, vlogolás és kalandvideók piacát is...

MA 13:57

Az Intel Battlemage végre megérkezett, de a játékosok csalódhatnak

Az Intel hosszú várakozás után bemutatta új grafikus kártyáját, az Arc Pro B70-et, amely a régóta pletykált Big Battlemage GPU-ra épül, ám ezúttal nem a játékosokat, hanem az MI-alkalmazásokat célozza meg...

MA 13:45

Az Uber robotaxijai megrohanják Horvátországot – kínai technikával

Zágráb utcáira érkezik az Uber és a kínai Pony.ai közös robotaxi-szolgáltatása, amelyet egy horvát cég, a Verne fog össze – ők gondoskodnak a teljes működési rendszer kiépítéséről...

MA 13:23

Az Exynos 2800: végre tanult a hibáiból a Samsung?

Érdemes megvizsgálni, milyen változások várhatók a Samsung következő generációs mobilchipjénél. Az Exynos 2800 koncepciója mostanra körvonalazódik, és úgy tűnik, a vállalat ezúttal a stabilitást helyezi előtérbe a Galaxy S28 szériánál...

MA 12:01

Az új PolyShell-támadás a Magento-áruházak felét fenyegeti

Fontos megérteni, hogy az utóbbi napokban tömeges támadássorozat indult a Magento Open Source és az Adobe Commerce rendszereket érintő, súlyos PolyShell-sebezhetőség kihasználására...

MA 11:56

Az MI megeszi az adatközpontok akkumulátorait – új korszakot nyit a Panasonic

A nagy memóriagyártók már minden idei moduljukat eladták, így hiányok és áremelkedések alakultak ki a piacon...

MA 11:45

Az új Razer Blade 16: karcsú, brutális és piszkosul drága

A Razer legújabb, 16 hüvelykes laptopja látványos hardverfrissítéssel érkezik: az Intel vadonatúj Core Ultra lapkáival és ultragyors, 9600 MHz-es LPDDR5X memóriával kapható, legalább 32 GB-tal szerelve...

MA 11:34

Az új Galaxy A57 végre könnyebben javítható

🔧 A Samsung Galaxy A57 5G-t már a bemutató előtt, néhány órával szét is szedték, és ami a leginkább feltűnő: a telefont végre a könnyű javíthatóság jegyében tervezték...

MA 11:12

A techóriások pórul jártak: kétmilliárdos bírság a közösségi oldalaknak

💸 Egy amerikai esküdtszék történelmi döntése értelmében a Meta és a YouTube összesen 6 millió dollár (közel 2,2 milliárd forint) kártérítést köteles fizetni egy ma 20 éves fiatal nőnek és édesanyjának...