2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 09:50

Az Atari megvette a Wizardry jogait, indul az újrakiadás-hadjárat

🎮 Érdemes megvizsgálni, milyen hatással lehet a klasszikus szerepjátékok világára, ha egy olyan ikonikus sorozat, mint a Wizardry, visszatér a piacra...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 5/7

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     DualShot Recorder (iPhone/iPad)A DualShot Recorder alkalmazás lehetővé teszi, hogy egyszerre függőleges és vízszintes videófelvételeket készíts...

MA 09:01

Az első határokon átnyúló tokenizált állampapír-visszaváltás: Ripple és JPMorgan az XRP Ledgeren

💰 Fontos kérdés, hogy a pénzügyi rendszerek miként tudnak alkalmazkodni a valós idejű, határokon átnyúló tranzakciókhoz...

MA 08:57

A tűzszünet-remények emelik a részvényeket, a bitcoin-rali megtorpan, Dogecoin -4%

📈 Erős hét után enyhe megtorpanás látható a főbb kriptovalutáknál, miután a nemzetközi részvénypiacok új rekordokat döntöttek...

MA 08:50

A cumberlandi szénbányák mélyéből tiszta energia tör fel

Az egykori bányaváros, Cumberland, egykor szinte teljes egészében a szénbányászatra épült: generációkon át ez határozta meg a mindennapokat, több ezer embernek adott munkát, és évente millió tonna szenet küldtek innen a világ különböző pontjaira...

MA 08:43

Három jel, hogy a bitcoin 32 millió forintra tör

Az elmúlt három hónapban a bitcoin árfolyama közel 23 millió forintról 29 millió forint fölé emelkedett, és újabb áttörésre készülhet...

MA 08:36

Itt a robotok appboltja: nyílt forrású Reachy Mini, 200+ app

🤖 A technológia világát hosszú időn át a mobilalkalmazások uralták, ám most új korszak kezdődik: nemcsak a telefonodra, hanem a robotodra is letölthetsz programokat...

MA 08:22

A NASA lenyűgöző felvétele: örvénylő felhők és ritka sarki vihar Alaszka felett

Dél-Alaszka télbúcsúztatója lélegzetelállító látványosságot hozott, amelyet a NASA egyik műholdja örökített meg...

MA 08:15

A techóriásokat is rettegésben tartják az MI-ügynökök?

😱 Az interneten egyre jelentősebbé válnak az MI-ügynökök, és bizonyos jelek arra utalnak, hogy 2035-re már többen lesznek, mint a tényleges internethasználók...

MA 08:02

Az éjszaka háromszor fényesebb lehet: műholdak veszélyeztetik a Vera C. Rubin Obszervatóriumot

Kezdetben az éjszakai égbolt viszonylagos sötétsége lehetővé tette, hogy a földi csillagászati műszerek soha nem látott részletességgel térképezhessék fel az univerzumot...

MA 07:57

A Wall Street elszámolóháza villámgyors blokkláncokat hajszol vállalati események tokenizálásához

A világ egyik legnagyobb klíringházaként ismert DTCC forradalmi lépésre készül: a pénzügyi piacok egyik legkevésbé látványos, de a működés szempontjából kulcsfontosságú területét, a vállalati eseményeket – például osztalékfizetéseket és felvásárlási ajánlatokat – szeretné blokkláncra vinni...

MA 07:50

A Stingray drón felszáll: az első autonóm tanker anyahajóról

✈ Mérföldkőhöz érkezett az amerikai haditengerészet új MQ-25A Stingray drónja, amely sikerrel teljesítette első, kétórás próbarepülését Dél-Illinois fölött...

MA 07:43

A mai NYT Kapcsolatok: tippek és megoldások (csütörtök, május 7., #1061)

💡 Jellemző példa arra, mennyire meg tudja tréfálni a játékosokat az NYT Kapcsolatok (Connections) mai feladványa...

MA 07:29

Az agy memóriaközpontja nem üres lap – így születünk

💡 Jó példa erre, hogy amikor megszületünk, az agyunk memóriaközpontja nem üres, ahogy sokáig hittük...

MA 07:22

A százéves Sir David Attenborough: 13 meglepő tény a legendáról

Megemlíthető továbbá, hogy kevés ember volt akkora hatással a természet bemutatására a képernyőn, mint Sir David Attenborough...

MA 07:14

Eljött a kriptó nagy pillanata – állítják a miami Consensuson

💸 Érdemes megvizsgálni, hogy a kriptovaluták már túlléptek-e a spekulatív fázison, és egyre inkább a mindennapok pénzügyi rendszerének részévé válnak...

MA 07:08

A nagy Sims-kvíz: bizonyítsd, igazi veterán vagy!

🎮 Különösen igaz ez akkor, ha minden évben elkap a vágy, hogy újjáépítsd a környékedet a The Simsben, és a nulláról kezdd újra a várost...

MA 07:01

A növekedés fizikájának 40 éves rejtélyét végre megfejtették a tudósok

🚀 A növekedés sokféle rendszerben figyelhető meg – legyen szó kristályokról, baktériumokról vagy éppen lángfrontokról –, és már régóta próbálják megfejteni a fizikusok, hogyan lehet leírni és előre jelezni ezt a folyamatot...

MA 06:57

Az androidos trójaiak „varázsütésre” eltűnnek – milliók veszélyben

Több millió Android-felhasználót fenyegetnek olyan új trójai vírusok, amelyek különösen ravasz módszerekkel rejtőznek el a telepítés után...

MA 06:50

Az ingatlanmogul, aki bitcoinnal felülmúlhatja a REIT-eket

💰 Felmerül a kérdés, le lehet-e körözni a hagyományos befektetési alapokat a megszokott ingatlanbefektetés és a kriptó ötvözésével...

MA 06:44

A 99 éjszaka az erdőben 14,2 milliós játékosrekordot döntött Robloxon

🌲 A legtöbb gyerek ma az ideje nagy részét online játékokban tölti, azonban a Roblox külön kategória: ez az a platform, amelynek világszerte elképesztően népes a rajongótábora...

MA 06:36

A várva várt, sokat csúszott Zelda‑klón még ebben a hónapban érkezik

Átütő nosztalgia és vadiúj játékélmény keveredik a hat év fejlesztés után május 29-én debütáló Mina the Hollower-ben...

MA 06:28

A Blue Origin új holdkompja túlélte az extrém földi teszteket

A Blue Origin legújabb holdi leszállóegysége, az MK1 Endurance úttörő szerepet kap a jövő holdi küldetéseinek technológiái fejlesztésében...

MA 06:22

A Yakuza előzménye készül? Snoop Dogg is felbukkan Tokióban

🇯🇳 A Stranger Than Heaven az RGG Studio legfrissebb játéka, amely már a bemutatójával a figyelem középpontjába került – nem utolsósorban azért, mert Snoop Dogg is szerepet kapott benne, méghozzá egy nemzetközi csempész bőrében...

MA 06:15

A kutatók egerekben visszafordították a cukorbetegséget laborban nevelt inzulintermelő sejtekkel

🧪 Erre utal többek között, hogy svéd kutatóknak sikerült megbízhatóan előállítaniuk emberi őssejtekből inzulintermelő sejteket, amelyekkel egereken végzett kísérletükben a cukorbetegséget is vissza tudták fordítani...

MA 06:05

Történelmi események a mai napon (Május 7.)

Ma sorsfordító háborús és politikai események, földrengés és műkincsrablás került a kalendáriumba...

szerda 20:36

A pangó kriptopiacon most a hozam viszi a prímet

💰 Az elmúlt fél évben a kriptovilág szokatlanul csendes. Az igazi tűzijátékok elmaradnak, különösen az alternatív coinok piacán, ahol a medvés trend az úr...

szerda 20:24

A Microsoft szerint a dolgozók fele már rajong az MI-ért?

Érdemes megvizsgálni, hogy miként változik a munka világa a mesterséges intelligencia elterjedésével...

szerda 20:12

A Hut 8 részvényei 30%-ot ugranak az óriási texasi MI‑adatközpont-bérlet hírére

📈 A Hut 8 részvényei közel 30%-kal ugrottak meg, amikor a cég bejelentette, hogy 15 évre szóló, 3 570 milliárd forintos (9,8 milliárd USD) bérleti szerződést kötött egy nagyszabású MI-adatközpont létesítésére Texasban, a Beacon Point nevű bérelt területén...