Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

szombat 20:49

Az MI klímalábnyoma: mítosz vagy kőkemény valóság?

Hiába tartottuk az MI-t környezeti rémnek, új kutatások szerint messze nem okoz akkora klímakárt, mint sokan gondolják...

szombat 20:34

A rejtett zsírégető kapcsoló: új remény az FGF19-től

💪 A túlsúlyosakat és a cukorbetegeket évek óta foglalkoztatja, hogyan lehet hatékonyan és tartósan csökkenteni a testzsírt...

szombat 20:17

Az új csodarost: tényleg egészségesebb a hűtött pizza?

Ha a maradék pizza másnap a hűtőből újra a tányérodra kerül, meglepő módon egészségesebbé válhat, mint frissen fogyasztva...

szombat 20:02

Az első spirálgalaxis átírja a kozmoszt: Alaknanda szenzációja

Mindössze 1,5 milliárd évvel az ősrobbanás után már létezett egy óriási, szabályos spirálgalaxis, ami csillagászati szempontból szinte lehetetlennek tűnt...

szombat 19:49

A mini Hi-Fi, ami letaszítja a trónról a nagy tornyot

🔊 A Schiit Audio bemutatta a Magni Unity fejhallgató-erősítő új változatát, amelyhez immár a friss Mesh DAC is kérhető, így egyetlen pici egységben kapod meg a teljes asztali erősítő–DAC megoldást – mérete mindössze 13 cm × 9 cm...

szombat 19:18

Az Amazonas új madara, a rettenthetetlen tinamou veszélyben

Kezdetben a Serra do Divisor Nemzeti Park meredek hegyvidékén dolgozó kutatók felfigyeltek egy különös madárhangra, amely a sűrű aljnövényzetben visszhangzott, megnehezítve a forrás pontos beazonosítását...

szombat 18:35

Az Auracast, a Bluetooth titkos ásza, amiről senki sem beszél

🔑 Ami kezdetben ártalmatlannak tűnt, mára a Bluetooth-technológia egyik legforradalmibb újítása lett: megérkezett az Auracast, mellyel párosítás nélkül kapcsolódhatsz fülhallgatóddal, hangszóróddal vagy hallókészülékeddel bármilyen közeli forráshoz...

szombat 18:18

Az eredeti Csillagok háborúja 2027-ben visszahódítja a mozikat

🌌 1977 óta először láthatjuk újra eredetiben a Csillagok háborúja: Egy új remény (Star Wars: A New Hope) filmet, minden vitatott CGI-bővítés vagy utólagos átszerkesztés nélkül...

szombat 17:34

Meghalt az építészet forradalmára, Frank Gehry, 96 évesen

Frank Gehry, a modern építészet egyik legnagyobb alakja, Santa Monicában hunyt el, 96 éves korában, légzőszervi betegség következtében...

szombat 17:18

A karácsonyi dalok tényleg tönkreteszik a munkahelyi hangulatot?

🎅 December első hetében szinte elkerülhetetlen, hogy karácsonyi zenék szóljanak az irodában...

szombat 17:02

A leukémia elleni áttörést egy kitartó kémikusnő hozta el.

💫 1941-ben Gertrude Elion kémikusi mesterdiplomát szerzett, de kutatói állásokat nem kínáltak nőknek...

szombat 16:34

Az új clickjacking-trükk: SVG-vel és CSS-sel támadnak

Az MI-t gyakran okolják a webes támadásokért, de most egy új, különösen rafinált clickjacking-támadási módszer jelent meg, amely egyáltalán nem használ JavaScriptet...

szombat 16:01

Az FBI riaszt: hamisított fotókkal zsarolnak az interneten

🕵 Az FBI friss figyelmeztetést adott ki a legújabb virtuális emberrablásos csalásokról, melyekben bűnözők a közösségi oldalakon talált képeket manipulálják, majd ezekkel megpróbálnak váltságdíjat kicsalni...

szombat 15:49

Az OpenAI rávette a renitens MI-ket, hogy kitálaljanak

OpenAI kutatói forradalmi kísérletbe kezdtek: megtanították a cég nagy nyelvi modelljeit (LLM-eket), hogy önként beismerjék, amikor rosszul viselkednek, hibáznak, netán csalnak...

szombat 15:17

A tiéd lehet az okostévéd forráskódja?

👀 Az amerikai Vizio tévégyártónak egy kaliforniai bíróság döntése szerint akár ki is kell adnia az okostévéi szoftverének forráskódját a felhasználóknak...

szombat 15:02

A klímaváltozás elnyelheti Európa utolsó lápjait

🌊 Európa eredeti lápterületének mindössze 7%-a maradt meg napjainkra, és ez az arány tovább csökkenhet a klímaváltozás miatt...

szombat 14:34

A 40 ezer római érme rejtekhelye végre napvilágra került

Szenon falujában, Északkelet-Franciaországban három ősi agyagedényt, úgynevezett amforát találtak a régészek, tele római kori pénzérmékkel...

szombat 14:18

A védelem vakfoltja: a passzív adatok csapdája

👁 A digitális rendszerek védelme már nem elég pusztán passzív internetes szkennelési adatokra támaszkodni...

szombat 14:03

Az okinavai tudósok leleplezték a lopakodó szabadgyökök támadását

Hihetetlen, de mégis igaz, hogy a napfény nemcsak ragyogóvá, hanem idővel törékennyé és fakóvá is teszi a mindennapjainkat körülvevő műanyagokat és festékeket...