2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

kedd 21:46

Az Opendoor visszatér: MI-lendület és tőzsdei rali a lakáspiacon

💰 Az Opendoor Technologies részvénye 11%-ot emelkedett egyetlen nap alatt, ahogy a cég egy merőben új útra lépett: most már teljesen MI-alapú, integrált lakáspiaci platformként pozicionálja magát...

kedd 21:35

Az MI végre átírja az értékesítés szabályait?

Érdemes megvizsgálni, miért haladt el az MI már rég az IT-szakemberek mellett, miközben az értékesítésben még mindig adatszigetek, kézi CRM-bejegyzések és megérzésen alapuló riportok uralják a terepet...

kedd 21:23

Az FBI a titokzatos tudóseltűnések nyomában

Az FBI vizsgálatot indított legalább tíz tudós halálának és eltűnésének ügyében, akik kormányzati tudományos projektekhez, illetve érzékeny információkhoz férhettek hozzá...

kedd 21:01

Az otthoni Google Gemini végre ébresztőszó nélkül is ért téged

A Gemini for Home mostantól tényleg képes teljes beszélgetésekre, vagyis nem kell minden egyes alkalommal azzal kezdeni, hogy Hé, Google...

kedd 20:56

A parányi dinoszauruszkövületek két évtizeden át félrevezették a tudósokat

Csaknem két évtizeden át tartotta izgalomban és fejtörésben a kutatókat néhány különösen apró és szokatlan dinoszauruszcsontváz...

kedd 20:45

Az egyetem ára sokkol: 43 ezer dollárnyi diákhitel az elsőéveseknek

💸 Idén jelentősen nőhet a diploma megszerzése után rájuk háruló adósságterhe annak a közel egymillió fiatalnak, akik ősszel kezdik meg felsőfokú tanulmányaikat...

kedd 20:34

A kriptotőzsde az űrbe tör: érkeznek a SpaceX-tokenek

A Bitget tőzsde új lehetőséget nyit az átlagbefektetők előtt azzal, hogy elhozza a magáncégek – elsőként a SpaceX (SpaceX) – tőzsdei bevezetés előtti (pre-IPO) tokenjeit a Solana blokkláncon...

kedd 20:24

Az idő szorít: készülnek a NASA új holdruhái

Ez a jelenség jól illusztrálható azzal, hogy a NASA sikeres Artemis II-küldetése után minden szem azokra a technikai kihívásokra szegeződik, amelyek hátravanak az ember visszatéréséhez a Holdra...

kedd 20:01

Az Amazon árdrágítási botrányában felkavaró új részletek derültek ki

Kalifornia főügyésze, Rob Bonta egy új jogi beadványban hozta nyilvánosságra, hogy az Amazon a piaci pozícióját kihasználva több márkát is felszólított arra, hogy emeljék termékeik árát más kiskereskedőknél, például a Walmartnál vagy a Targetnél...

kedd 19:45

Az amerikai vásárlók csak csigalassan kapják meg a vámvisszatérítéseket

Az USA Legfelsőbb Bírósága februárban alkotmányellenesnek minősítette a Nemzetközi Sürgősségi Gazdasági Hatalmak Törvénye (IEEPA) alapján kivetett egyes vámokat...

kedd 19:35

Az új Apple-vezér: tovább él-e Jobs öröksége?

Tim Cook 15 év után átadja a vezérigazgatói posztot az Apple-nél...

kedd 19:25

A mesterséges intelligencia nélkül is térdre rogyunk előtte

🚀 Az elmúlt években a mesterséges intelligencia fejlesztése olyan sebességgel halad, hogy nehéz felfogni, az emberiség mindennapjai és jövője miként alakulhat át miatta...

kedd 19:14

A kódoló MI-ügynökök botrányos sebezhetőségei: hét fenyegetés, néma botrány

⚠ Jellemző példa erre, hogy egy biztonsági kutató egy GitHub pull request címébe rejtett rosszindulatú utasítás segítségével három különböző, MI-alapú kódolást segítő ügynökből – Anthropic Claude Code Security Review (GitHub Action), Google Gemini CLI Action és GitHub Copilot Agent (Microsoft) – egyszerre szedett ki szigorúan védett titkos adatokat...

kedd 19:02

Az Apple új vezérét példátlan kihívások várják

Tim Cook szeptemberben átadja az Apple irányítását John Ternusnak, akire várhatóan egy négybillió dollár értékű vállalat vezetése vár...

kedd 18:57

Az AES–128 még a kvantumgépeknek is ellenáll

🔒 Az utóbbi időszakban egyre élesebb fókuszba kerül, hogy a kvantumszámítógépek létezése később veszélybe sodorhatja a legfontosabb titkosítási eljárásokat világszerte...

kedd 18:45

A kínai villámakkuval 7 perc alatt teljesen feltölt az autód

A kínai elektromos autóipar újabb mérföldkövet ért el: a CATL bemutatta harmadik generációs Shenxing lítium-vasfoszfát akkumulátorát, amely szinte hihetetlen gyorstöltési képességet kínál...

kedd 18:23

Az Apple új ura: Tim Cook átadja a stafétát – ki ő?

Tim Cook, aki tizenöt évig vezette az Apple-t, most elengedi a gyeplőt, és szeptembertől az igazgatótanács elnöke lesz...

kedd 18:01

Az új OnePlus mobilok felforgatják a piacot

A OnePlus jövője ugyan kérdésessé vált Európában és az Egyesült Királyságban, Ázsiában azonban töretlenül folytatja terjeszkedését...

kedd 17:57

Az invazív halbőrtől a zöld tetőkig: így termel pénzt a természet

🌱 Már nemcsak álom, hogy úgy húzhatsz hasznot a természetből, hogy közben nem rombolod, hanem még segítesz is rajta...

kedd 17:24

Az űrruha-fiaskó miatt veszélyben a holdraszállás?

🚀 Első pillantásra úgy tűnt, hogy a NASA minden eddiginél közelebb jutott ahhoz, hogy új generációs űrruhában sétáljon valaki a Holdon...

kedd 16:45

Az Amazon odacsap: 9000 milliárddal pörgeti az Anthropicot, de megkéri az árát

Az Amazon döbbenetes, 9000 milliárd forintnak (25 milliárd USD) megfelelő összeget helyez kilátásba az Anthropic nevű MI-cég fejlesztéseire...

kedd 16:23

Az új Galaxy S26 már az USA-ban lehengerelte elődjét

Tipikus eset, amikor egy új mobilcsalád minden várakozást megdönt: a Samsung új Galaxy S26 készülékei most sokkal jobban fogynak, mint tavaly az S25 modellek, és különösen az Ultra változat iránt nőtt meg a kereslet...

kedd 16:12

A mesterséges intelligencia már a munkahelyeken tanít – bízhatunk benne?

🧠 Fontos kérdés, hogy mennyire építhetünk az MI-re a munkahelyi tanulásban és képzésben...

kedd 16:01

Az elsőszülötteket tényleg jobban fenyegeti az autizmus és az allergia?

🤔 A családon belüli születési sorrend alapvetően formálja életünket – erről most a tudomány is meggyőző bizonyítékokat hozott...

kedd 15:56

Az MI mostantól vacsorát is foglal helyetted a Yelpen

Már tényleg nem lehet megkerülni az MI-hullámot: a Yelp is beszállt a nagy okosasszisztens-versenybe...

kedd 15:45

Az új PlayStation Plus-felhozatal: mókuspisztoly, robotdínók és kártyacsata

A PlayStation Plus előfizetői áprilisban igazán színes kínálatból válogathatnak, hiszen az új játékok között megtalálható a bizarr Mókus pisztollyal (Squirrel With a Gun) is...

kedd 15:35

Az otthonod elrejtése a Google Térképen: így maradsz láthatatlan

Egyre többen érzik joggal kellemetlennek, hogy otthonuk, autójuk vagy akár a kapualjuk bárki számára megnézhető a Google Térkép Utcakép nézetében...

kedd 15:23

Az Apple új ura: ki John Ternus, és mire készül?

👀 Hatalmas változás jön az Apple-nél: John Ternus veszi át Tim Cook helyét a vezérigazgatói székben valamikor az év vége felé...

kedd 15:12

Az S3 videokártyák rejtélye: vége a rettegett túlfényesedésnek

Most kapaszkodj, mert az S3, amely valaha úttörőként robbant be a videókártyák világába, mára inkább csak retrórajongó játékosok polcain tündököl, vagy legfeljebb néhány textúratömörítő megoldásban találkozhatsz a nevükkel...