2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

kedd 20:38

Az új Lorwyn: Eclipsed megdöntötte a Magic-rekordot

A január 23-án megjelent Lorwyn Eclipsed minden eddiginél gyorsabban fogy a Magic: The Gathering történetében, így újabb csúcsot állított be a 33 éves kártyajáték életében...

kedd 20:19

A nagy Windows-váltás: új Secure Boot tanúsítványok érkeznek

💻 A Microsoft elkezdte terjeszteni az új Secure Boot tanúsítványokat a szokásos havi Windows-frissítésekkel, mivel az eredetileg 2011-ben bevezetett tanúsítványok 2026...

kedd 19:55

Zöld utat kapott a Blockchain.com: FCA-licenc az Egyesült Királyságban

🟢 A Blockchain.com kriptotőzsde sikeresen megszerezte az Egyesült Királyság pénzügyi felügyeletének, az FCA-nak a regisztrációját, ami lehetővé teszi, hogy hivatalosan is kriptoszolgáltatásokat nyújtson az országban...

kedd 19:37

Az utolsó percben repült a Kraken pénzügyi igazgatója

🚨 A Kraken kriptotőzsde az első félévben esedékes, régóta várt tőzsdei bevezetésére készülve váratlanul megvált pénzügyi igazgatójától, Stephanie Lemmermantól...

kedd 19:19

Az 1337 dolláros egér, amit csak a nosztalgia kedvéért vennél

🖩 Újabb elképesztő limitált kiadást dob piacra a Razer: 25 évvel az első Boomslang után visszatér a legendás gamer egér, de a pénztárcád nem lesz hálás érte...

kedd 19:02

Az MI-kódháború új szintre lépett: a Codex földbe döngölte a Macet

🚀 Felmerül a kérdés, meddig tart az ingyenes paradicsom: az OpenAI legújabb MI-alapú Codex alkalmazása már az első héten elérte az egymilliós letöltési küszöböt, miközben csak Mac számítógépeken érhető el...

kedd 18:55

Az új Google-eszközök egy kattintással tüntetik el személyes adataidat

A Google vadonatúj funkciókat vezet be, amelyekkel bárki könnyedén eltávolíthatja érzékeny adatait a keresőből...

kedd 18:37

A Windows csak az új Secure Boottal marad biztonságos

🔒 A Microsoft automatikusan lecseréli a Secure Boot-tanúsítványokat a Windows-eszközökön, mielőtt a régiek 2026 júniusa és októbere között lejárnának...

kedd 18:21

Az Apple újabb nagy dobása: érkeznek az M5-ös MacBookok

Úgy tűnik, hogy az Apple új MacBookjai 2026-ban minden eddiginél színesebb frissítéseket és átalakulásokat hoznak...

kedd 18:02

Az MI végre feltörte egy ókori római társasjáték titkát

Nyár volt 2020-ban, amikor Walter Crist kutató egy hollandiai múzeumban sétált, amely az ókori Római Birodalom hollandiai jelenlétének szentelt kiállításokat mutatott be...

kedd 17:56

A Philips Hue Lucca új kültéri lámpái fényárat és színorgiát hoznak

💡 A Philips Hue Lucca nevű kültéri lámpacsaládja hamarosan jelentős frissítést kap, amelynek köszönhetően a lámpák nemcsak világosabbak, hanem színesebbek is lesznek...

kedd 17:37

Az OpenAI reklámokkal bombázza a ChatGPT-t – most indul a buli

Amerikai felhasználóknál már megjelentek a hirdetések a ChatGPT-ben, ami komoly fordulópontot jelent az MI üzleti modellje és a felhasználói élmény szempontjából...

kedd 17:19

A Nothing MI-appjai tényleg csak játékra jók?

Egy hét tesztelés után a Nothing Essential Apps Builderével kapcsolatban vegyes érzéseim maradtak...

kedd 17:01

A nagy bitcoinpánik még csak most jön?

💸 Az elmúlt hetekben a bitcoin ára hirtelen esett, 60 000 dollár (kb...

kedd 16:38

Az ázsiai techóriás belép a felhőpiacra

A Yahoo Japan és a LINE 2021-es egyesülése nem csupán a cégméretet növelte meg, de teljesen új alapokra helyezné a régiós digitális szolgáltatásokat is – most bejelentették, hogy három éven belül teljesen egységes, privát felhőinfrastruktúrát szeretnének kialakítani...

kedd 16:19

Az MI már másodpercek alatt kiértékeli az agyi MR-felvételeket

Egy új, a Michigani Egyetemen kifejlesztett MI-rendszer képes másodpercek alatt kiértékelni az agyi MRI-felvételeket, 97,5%-os pontossággal azonosítva a neurológiai betegségeket, és segítséget nyújtva a sürgősségi esetek felismerésében is...

kedd 16:01

A napi valódi kávé távol tarthatja a demenciát

Sokan érzik úgy, hogy a napi kávé vagy tea élesíti az elmét – és most ezt tudományosan is alátámasztják...

kedd 15:55

Az új Pixel 10a és a nagy FaceTime-félreértés

A Google hivatalosan is megerősítette, hogy a Pixel 10a február 18-án előrendelhetővé válik, és kiemelte, hogy ez lesz eddig a legstrapabíróbb Pixel A-szériás modell...

kedd 15:38

Az elhízás elleni gyógyszerháborúban perel a Novo Nordisk riválisát

💉 Az Ozempic és a Wegovy készítményeiről ismert Novo Nordisk jogi lépéseket tett a rivális Hims & Hers ellen az Egyesült Államokban, mert szerinte veszélyes, hamisított fogyókúrás gyógyszereket árusít...

kedd 15:02

Az elhízás jelentősen növeli a súlyos fertőzések kockázatát

Erre utal többek között az, hogy egy friss, nagyszabású kutatás szerint azok, akik elhízottak, jelentősen nagyobb arányban kerülnek kórházba, illetve halnak meg különféle fertőzések miatt, legyen szó vírusokról, baktériumokról, gombákról vagy parazitákról...

kedd 14:56

Az Aadhaar tarol: igazolvány helyett app, az aggályok maradnak

🛠 India most minden eddiginél mélyebben igyekszik beépíteni az Aadhaar lakossági digitális azonosítórendszert a mindennapi életbe...

kedd 14:37

Az igazi verseny kezdődik? Lazít az Apple és a Google az appboltokon

Az Egyesült Királyság versenyhivatali fellépése miatt az Apple és a Google kénytelen lesz módosítani alkalmazásáruházaik működését...

kedd 14:19

A világ legtisztább égboltjai megmenekültek – fellélegezhetnek a csillagászok

A chilei égbolt tisztaságát évtizedek óta a világ vezető csillagászai figyelik...

kedd 13:55

Az évszázad kriptócsalása: 20 év börtön a vezérnek

Egy kínai és Saint Kitts és Nevis-i állampolgárságú férfit távollétében húsz év börtönre ítéltek, amiért részt vett egy nemzetközi, úgynevezett „pig butchering” (szerelmi csalás) típusú kriptovaluta-befektetési átverésben, amellyel több mint 26 milliárd forintot (73 millió USD) csaltak ki áldozatoktól...

kedd 13:19

Az MI orvosi tanácsa csak egy Google-kereséssel ér fel

Az MI-chatbotok villámgyors fejlődése ellenére az egészségügyi szakértők szerint nem alkalmasak valódi orvosi tanácsadásra...

kedd 13:02

Az ADHD-kezelések kulisszatitkai: mi válik be, mi nem?

💡 Az ADHD világa sokszor zavaros: egymásnak ellentmondó ajánlások, bizonytalan hatású módszerek és éveken át tartó találgatás nehezítette a döntést orvosoknak és érintetteknek egyaránt...

kedd 12:55

Az Alibaba áttörése: MI-jük már robotokat is irányít

🤖 A kínai Alibaba bemutatta legújabb mesterségesintelligencia-modelljét, a RynnBrain-t, amelyet kifejezetten robotok számára fejlesztettek...

kedd 12:38

A pofonegyszerű jelszólopás: amikor még MI sem kell

Egy lényeges szempont, hogy a jelszavak mindig is feszültséget jelentettek a felhasználói élmény és a biztonság között...

kedd 12:19

Itt az Aluminum OS, a Google új MI-alapú platformja

A Google nagy dobásra készül: az Aluminium OS-sel egyesíti a Chrome OS-t és az Androidot, így egy közös, számítógépekre szánt rendszert hoz létre...