2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

péntek 21:57

Az MI-ügynökök végre biztonságosan kordában tarthatók?

🕵 Érdemes megvizsgálni, hogy az MI-ügynökök vállalati alkalmazásának egyik legnagyobb akadálya eddig az volt: miként adható meg számukra a szükséges mozgástér úgy, hogy közben ne veszélyeztessék a környező rendszereket...

péntek 21:46

Az amerikai MI-chip kiskapun át juthat a ByteDance-hez

A ByteDance gigantikus beruházást indít, hogy mégis hozzáférjen az NVIDIA B200-as csúcschipjeihez, amelyeket az Egyesült Államok korlátozottan exportál Kínába...

péntek 21:36

Az M5-ös MacBook Air: alig változott, mégis verhetetlen vétel

💻 Az Apple legújabb MacBook Air modellje, az M5-ös változat, első pillantásra csak szerény frissítésnek tűnik, de az apróbb fejlesztések az évek során összeadódnak...

péntek 21:23

A bosszantó PC-s shader‑várakozásnak végre vége lehet

Különösen igaz ez akkor, ha egy új PC-s játékot indítasz először: hosszú percek telnek el, mire a grafikai effektek végre optimalizálódnak a gépedhez...

péntek 21:12

Az Apple Arcade áprilisban három új játékkal hódít

Áprilisban igazán különleges játékválogatás érkezik az Apple Arcade-re: a kalandvágyók rémisztő vizeken hajózhatnak, a kikapcsolódás szerelmesei nyugalmas fejtörőkbe merülhetnek, míg a gyerekeket egy lakásban megtelepedő színes kis hernyó várja...

péntek 21:01

Az Amazon most durván emeli a Prime Video árát – örülünk?

Ez most kimondottan az a pillanat, amikor át kell gondolni: tényleg megéri még az Amazon Prime Video?..

péntek 20:56

A negatív fény kora: jönnek a láthatatlan üzenetek

A németországi atomreaktorok hőkamerás képei noha csak a felszínt mutatják, a tudomány most új szintre emeli a láthatatlan adatátvitelt...

péntek 20:46

Az élet VMware után: így őrizd meg adataid migrációkor

📦 A Broadcom 2023-as VMware-felvásárlása óriási átrendeződést indított el az IT-világában, és a hullámzás ma sem csitul...

péntek 20:34

Az új Spotify-láz: te döntöd el, mit hallgatsz!

Nem hiszem el, de mostantól nem a Spotify algoritmusa választja ki helyetted a kedvenc ütemeidet!..

péntek 20:13

Lehet az intersztelláris 3I/ATLAS üstökös az univerzum fosszíliája?

🚀 Egészen elképesztő felfedezés látott napvilágot: a 3I/ATLAS nevű intersztelláris üstökös akár 12 milliárd éves is lehet...

péntek 20:01

A Loblaw elleni kibertámadás az adathalászok aranybányája

Kanada legnagyobb kiskereskedelmi vállalata, a Loblaw kibertámadás áldozata lett, amely során a bűnözők az ügyfelek alapvető elérhetőségi adataihoz jutottak hozzá...

péntek 19:57

Az MI-ügynököknek soha nem volt ilyen létfontosságú a vektoros keresés

Különösen említést érdemel, hogy az MI-ügynökök térhódítása nemhogy megszüntette volna, hanem jelentősen felerősítette a vektoros keresés iránti igényt...

péntek 19:47

Az Nvidia új MI-szörnyetege: 7,2 ezermilliárd forintos nagy dobás

🔥 Egy lényeges szempont, hogy a karácsony előtti utolsó munkanapon óriási port kavart a technológiai világban egy jelentős üzletkötés: az Nvidia körülbelül 7,2 ezer milliárd forintért (20 milliárd dollárért) licencelte egy feltörekvő chipgyártó, a Groq technológiáját, miközben több kulcsembereket, köztük a vezérigazgatót is átcsábította...

péntek 19:34

Az új kibertámadókra világszerte lecsaptak a hatóságok

Ez a jelenség jól illusztrálható azzal, hogy a nemzetközi hatóságok egy friss, összehangolt akciója során 45 000 IP-címet és számtalan szervert vontak ki a forgalomból, amivel világszerte elkövetett kibercselekményeket akadályoztak meg...

péntek 19:23

A világ első kereskedelmi agyi implantátumát Kína jóváhagyta

Tipikus eset, amikor a tudományos áttörés nem a Szilícium-völgyből, hanem Kínából érkezik...

péntek 18:03

A kozmosz rejtett robbanásai: törpegalaxisban felbukkant neutroncsillag-ütközés

Egy rendkívül erős gamma-kitörést figyeltek meg, amely két összeolvadó neutroncsillagból származik – ráadásul ezek egy eddig ismeretlen minigalaxisban rejtőztek el, egy ősi kozmikus ütközés maradványaként...

péntek 17:56

Az első Uber-robotaxi megérkezett: Las Vegas utcáin gurul

Lényeges újdonság, hogy Las Vegasban mostantól elérhetők az Uber robotaxis fuvarok...

péntek 17:46

Mérgező vörös ásvány egy ukrajnai szkíta sírban

A Chervony Mayak nevű temetőben végzett régészeti ásatások során egy 1900 éves, kétszemélyes szkíta női sírban váratlan leletre bukkantak: mérgező, vörös színű cinóberdarabokra...

péntek 17:34

Az Apple nagy dobása: itt a MacBook Neo

Rózsaszín, kék, sárga – végre el se lehet téveszteni a MacBook Neót, ami 13 colos méretben és 600 ezer forintért kerül az Apple boltjaiba...

péntek 17:25

A rettegett péntek 13.: ezért jön ki mindig a matek

Tipikus eset, amikor egy dátum köré épülő félelem végigsöpör a világon, pedig minden babona mögött tiszta matematikai törvényszerűség áll...

péntek 17:02

Az MI forradalma: most éri meg igazán szoftveriparba lépni

A szoftvervilág történetének egyik legizgalmasabb korszakában élünk: már nemcsak álom, hogy percek alatt térképezzen fel és újítson meg évtizedes, kritikus rendszereket egy MI-algoritmus...

péntek 16:56

Az idei tél forrón robbant be Amerikában

🔥 Erre utal többek között az, hogy az Egyesült Államokban idén egyik államban sem dőlt meg hidegrekord a tél folyamán, miközben kilenc államban rekordmeleg uralkodott december és február között...

péntek 16:45

A PDF királya távozik: lemond az Adobe vezére 18 év után

Erre utal többek között, hogy Shantanu Narayen, az Adobe vezérigazgatója váratlanul bejelentette távozását, miután 18 évig irányította a világhírű szoftvervállalatot...

péntek 16:35

Az MI nem könnyít, inkább még fárasztóbbá teszi a munkát

Érdekes felvetés, hogy a mesterséges intelligencia (MI) egyre inkább teret nyer a munkahelyeken, mégsem tapasztalnak könnyebbséget az alkalmazottak a mindennapos feladatokban...

péntek 16:24

Az égi rejtély: elkóborolt fekete lyuk, vagy különös galaxis?

Külön említést érdemel, hogy a csillagászok egy furcsa fénycsíkra bukkantak az univerzumban, amelynek magyarázata évek óta viták és kutatások tárgya...

péntek 13:57

Az Apple MacBook Neo átírja az olcsó laptopok szabályait

💻 Amikor az Apple bemutatta a MacBook Neót, szinte minden nagy PC-gyártó meglepetten kapta fel a fejét...

péntek 13:45

Az angol gyeplabda válságban: 129 GB-nyi adat forog kockán

🚩 Anglia gyeplabda-szövetségét súlyos kibertámadás érte, miután egy hackercsoport – AiLock néven – magára vállalta adataik ellopását, és bejelentette közzétételének szándékát...

péntek 13:37

A MacBook Air M5 rekordgyors – de tényleg erre vártunk?

🚀 Elképesztő, hogy immár négy év telt el azóta, hogy az Apple kívül-belül teljesen újragondolta a MacBook Airt...

péntek 13:24

A mindent vivő π-képlet

Több mint kétezer éve matematikusok generációi próbálnak minél gyorsabban és pontosabban kiszámolni a pi (π) értékét, így az évezredek alatt képletek ezrei születtek...