2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 15:19

Az Xcode 26.3 elhozza az eszközön futó MI-fejlesztés erejét

💻 Frissült az Xcode, és a 26.3-as verzió már támogatja az ügynökalapú programozást...

MA 15:02

A Sysmon végre alapfunkció lesz a Windows 11-ben

💡 A Microsoft elindította a beépített Sysmon-támogatás tesztelését a Windows 11 rendszerben, igaz, egyelőre csak a Windows Insider programban részt vevő felhasználók élvezhetik az újdonságot...

MA 14:56

Az Nvidia és az OpenAI gigaüzlete füstbe ment: 36 billió forint

💸 Lényeges, hogy tavaly szeptemberben az Nvidia és az OpenAI szándéknyilatkozatot írt alá, miszerint az Nvidia akár 36 billió forint (100 milliárd dollár) értékben fektetne be az OpenAI MI-infrastruktúrájába...

MA 14:37

Az ingyenes MI-kamerák korszaka: így védheted az otthonod

Az okosotthonokba lassan bekúszik az MI, és ma már nem luxus, ha egy kamera felismeri a családtagokat, különbséget tesz egy futár és a saját kutyád között, vagy kiértékeli a nap eseményeit...

MA 14:20

Az Artemis II startja megint csúszik: hidrogénszivárgás a holdrakétán

🚀 A NASA újabb késést jelentett be az Artemis II misszióban, miután a rakéta főpróbáján ismét hidrogénszivárgást észleltek...

MA 14:02

Olvad az Antarktisz: összeomolhat a Föld szénelnyelője

🌨 A Nyugat-Antarktiszi jégtakaró olvadása meglepő változásokat idézhet elő abban, ahogyan a Déli-óceán elnyeli a légköri szén-dioxidot...

MA 13:55

Az óriás Tether meghátrál: milliárdokkal vágja vissza a tőkebevonást

💸 A Tether, a világ egyik legismertebb stabilcoin-kibocsátója drasztikusan visszafogta tőkebevonási terveit, miután a befektetők nem igazán voltak lenyűgözve az akár 180 000 milliárd forintos (500 milliárd USD) álomértékeléstől...

MA 13:19

A gerinc születésének titka: egy sorsfordító gén nyomában

A gerinces állatok, azaz az emlősök, halak, hüllők és kétéltűek fejlődésének rejtélyeit segíthet megfejteni egy friss genetikai kutatás...

MA 13:02

Az összehajtható telefonok 2026-ban már tényleg megérik?

📱 Érdemes megvizsgálni, mennyire éri meg összehajtható telefont venni 2026-ban, hiszen egyre több gyártó dob piacra ilyen készüléket, és a felhasználók véleménye is sokat árnyalja a képet...

MA 12:55

A fehérzajgép tönkreteheti az éjszakai nyugalmadat

Sokan használják a hálószobában a különféle hanggépeket, például pink noise-t (rózsaszín zajt), abban a hitben, hogy ezek elősegítik az egészséges alvást...

MA 12:36

Az óriás visszavág: a Walmart belép az egybillió dolláros klubba

A Walmart piaci értéke átlépte az 1 billió dolláros, vagyis 370 000 milliárd forintos határt, ezzel az amerikai kiskereskedelmi lánc bejutott a legértékesebb cégek szűk körébe, amelyet eddig főként techóriások uraltak...

MA 12:19

Az Igazságügyi Minisztérium ismét nekimegy a Google-nek

Az amerikai Igazságügyi Minisztérium (DOJ) újabb fellebbezést nyújtott be a Google ellen indított versenyjogi perben, amely az internetes kereső- és hirdetési piac monopolhelyzetéről szól...

MA 12:02

A nyers tej miatt halt meg egy újszülött Új-Mexikóban

😷 Egy Új-Mexikó-i újszülött életét vesztette liszteriózis következtében, miután édesanyja terhessége alatt nyers tejet ivott...

MA 11:56

A Gemini átveszi az irányítást a mobilod felett?

Az MI térhódítása az Android-eszközökön megállíthatatlanul halad előre, és a Gemini hamarosan olyan funkciókat kap, amelyekkel akár teljesen átveheti az irányítást a telefonod felett...

MA 11:37

Az MI-botok visszatértek: ma leálltak a ChatGPT és a Claude

🤖 Ma délután sokan nem tudták használni a ChatGPT-t, amikor a népszerű MI-csevegőbot részleges leállást szenvedett el...

MA 10:58

Az árnyék-CDC: ki tölti be a közegészségügyi űrt?

👀 Az amerikai közegészségügy történetének egyik legnagyobb válságát éli. A Centers for Disease Control and Prevention (CDC) évtizedeken át a megbízható, bizonyítékalapú egészségügyi iránymutatás és a járványügyi védelem csúcsintézménye volt...

MA 10:49

Az új vezér megfordítja a PayPal sorsát?

Hatalmas változás előtt áll a PayPal: Enrique Lores veszi át az irányítást, miután a társaság vezetése elégedetlen volt a korábbi vezérigazgató, Alex Chriss teljesítményével...

MA 10:42

A Holdon hatalmas villanást okozhat ez az aszteroida

Erre utal többek között az, hogy a 2024 YR4 nevű, épületméretű aszteroida 4,3%-os eséllyel csapódhat a Holdba 2032 decemberében, a becsapódás pedig akár szabad szemmel is megfigyelhető, látványos fényjelenséget eredményezhet...

MA 10:17

Az új Xbox 2027-ben érkezhet – odaszúrt az AMD

🎮 A Microsoft már gőzerővel dolgozik a következő generációs Xbox konzolon, amelyhez egyedi fejlesztésű AMD-chipeket használ majd...

MA 10:03

A valódi fedélzeti Wi-Fi: kipróbáltuk a United Starlinket

Utazásom során az internetkapcsolat majdnem olyan zavartalan volt, mintha otthon, a megszokott szélessávon lettem volna...

MA 09:57

Az igazságügy is hadat üzen a Google monopóliumának

Az amerikai Igazságügyi Minisztérium (DOJ) és több állam fellebbezést nyújtottak be, hogy még szigorúbb szankciókat érjenek el a Google ellen, miután a bíróság formálisan is megállapította a techcég monopolhelyzetét a keresőszolgáltatások terén...

MA 09:49

A szívinfarktus hét évvel előbb csap le a férfiakra

❤️ Az amerikai CARDIA-tanulmány alapján a férfiakat átlagosan hét évvel korábban érintik a szív- és érrendszeri betegségek, mint a nőket...

MA 09:33

Az OpenAI fölénye olvad, elszabadult az MI-verseny

Az OpenAI már nem uralja egyedüliként az MI-chatbotok piacát, az olyan riválisok, mint a Gemini és a Grok, egyre nagyobb teret nyernek...

MA 09:25

Az ázsiai techrészvények zuhannak: rettegés az MI-forradalomtól

📈 A mesterséges intelligencia rohamos térnyerése miatt világszerte komoly nyomás alatt vannak az informatikai vállalatok részvényei...

MA 08:57

Az új Galaxy S26: nappal és éjjel is közelebb hoz mindent

📷 A Samsung három hivatalos előzetessel kezdte beharangozni a Galaxy S26 sorozatot, amely várhatóan február 25-én mutatkozik be...

MA 08:49

Az új Pixel-frissítés: forradalom helyett csupán hibajavítások

A Google kiadta a 2026. februári frissítést a támogatott Pixel-telefonokra, ám ezúttal nem érdemes nagy újdonságokra vagy régóta várt javításokra számítani...

MA 08:42

Az újranépesített Yellowstone: farkasok, pumák és ragadozók játszmája

Az elmúlt ötven évben a Yellowstone Nemzeti Parkban a farkasok és pumák újbóli megjelenése forradalmasította a táplálékláncot...

MA 08:33

A növények új trükkjei leplezik le az életmentő gyógyszerek titkait

🌿 A növények saját védelmük érdekében kémiai fegyvereket gyártanak, köztük olyan alkaloidokat, mint a koffein és a nikotin, amelyeket az emberiség is felhasznál fájdalomcsillapításra, betegségek kezelésére és a mindennapokban...

MA 08:27

A tüntetésen így használd a mobilod, hogy ne bukj le

A mobiltelefon szinte nélkülözhetetlenné vált a mai tüntetéseken: ezzel szervezkedünk, kommunikálunk, valamint dokumentáljuk a rendőri túlkapásokat vagy más jogsértéseket...