Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

csütörtök 18:24

Penrose szám: A bizonyíték Isten létére?

Sir Roger Penrose brit matematikus és elméleti fizikus, aki a fekete lyukak szingularitásának és az általános relativitáselmélet új matematikai alapjainak feltárásáért kapott Nobel-díjat, az 1970-es években sokkoló, a tudományos világot megosztó tézist közölt...

MA 19:01

Az új Chopra-MI: Zsebben hordható bölcsesség, vagy csak marketing?

A világhírű író és wellness-guru, Deepak Chopra úgy véli, hogy a mesterséges intelligencia immár életünk része, és nem hagyható figyelmen kívül...

MA 18:49

A Google-nál már az ingyenes képgenerálás is luxus

💸 A Google népszerű, MI-alapú képgenerátora, a Nano Banana mostantól naponta csak kétszer használható ingyenesen, mert a vállalat alig bírja kiszolgálni a rohamot...

MA 18:34

Az egekben a kávé ára – tényleg tart a drágulási hullám?

Az elmúlt évben a kávé ára szinte példátlanul magasra szökött. A pörkölt kávé átlagos bolti ára szeptemberre fél kilónként 9,14 dollárra (kb...

MA 18:01

Az új galliumcsoda elindítja a zöld kémia forradalmát

🧠 A modern vegyipar egyik legnagyobb kihívása, hogy az alapvető, katalizátorral gyorsított kémiai reakciókat általában drága és nehezen hozzáférhető átmenetifémek – például a palládium, a ródium vagy a platina – segítségével végzik...

MA 17:33

A VMware nem hátrál a Siemens ellen: milliárdos per jöhet

📢 Érdemes megérteni, mi áll a Siemens és az amerikai VMware között zajló jogi csatározás hátterében: a vita középpontjában több százmillió forintnyi, állítólag ki nem fizetett szoftverlicencek állnak, amelyeket a VMware anyavállalata, a Broadcom kér számon a német ipari óriáson...

MA 17:17

Az Airbus továbbra is a Microsoft foglya

Több mint hét éve indult el az Airbus nagy áttörési kísérlete: a vállalat több mint 100 000 dolgozóját akarta átszoktatni a Microsoft Office termékeiről a Google Workspace-re...

MA 16:48

Miért képtelen az MI megmondani, mennyi az idő?

ChatGPT böngészik, kódot ír, képeket elemez, de ha megkérdezed, hány óra van, vagy eltalálja, vagy magabiztosan téved, vagy egyszerűen udvariasan visszautasítja a választ...

MA 16:34

A sugárzást faló titokzatos fekete gomba

Kevesen gondolnák, hogy a világ egyik legveszélyesebb helyén, a csernobili atomerőmű romjai között az élet új utat talált magának...

MA 16:17

Az Epic főnöke betámadta a Steam MI-címkéit

Az Epic Games vezérigazgatója, Tim Sweeney szerint a Steamnek és más játékáruházaknak el kellene hagyniuk a “Made with AI” (MI-vel készült) címkéket, mert az MI-használat hamarosan teljesen általánossá válik a játékfejlesztésben...

MA 16:01

A bemelegítés, ami azonnal erősebbé és gyorsabbá tesz

A bemelegítés látványosan javítja az izmok teljesítményét, különösen a gyorsaságot és a robbanékonyságot, mert megemeli az izmok hőmérsékletét...

MA 15:49

A szmog észrevétlenül lenullázza az edzés hatását

💨 Érdekes felvetés, hogy a rendszeres testmozgás egészségügyi hasznát erősen csökkentheti a légszennyezés...

MA 15:19

Az univerzum közelről: így látod részletesen a távoli csillagokat

Érdemes megvizsgálni, hogy a Nap és az éjszakai égbolt csillagai között mi a jelentős különbség...

MA 15:01

A betegségek rejtett mozgatórugója: mitokondriális DNS-károsodás

💡 A mitokondriumokban rejtve maradt DNS-károsodás új magyarázatot adhat arra, hogyan érzékeli és kezeli a szervezet a stresszt, és miért alakulnak ki komolyabb betegségek, például a rák és a diabétesz...

MA 14:18

Az idei Black Friday aranybánya lehet a csalóknak

A mesterséges intelligencia bevásárlóasszisztensek idén először forradalmasítják a Black Friday-t: egyre többen bízzák MI-re, hogy termékeket találjanak, ajánlatokat hasonlítsanak össze, személyre szabott ajánlásokat kapjanak, vagy akár automatikusan megvásárolják a kinézett árut – mindezt anélkül, hogy sokat kattintanának vagy keresgélnének...

MA 14:01

Az indiai gazdaság szárnyal, még a vámtarifák árnyékában is

Az indiai gazdaság várakozáson felül teljesített: éves szinten 8,2%-kal nőtt a szeptember végével zárult negyedévben...

MA 13:50

A OnePlus 15 végre meghódítja Amerikát – nem véletlen az öt csillag

A OnePlus 15 amerikai megjelenése előtt mára minden akadály elhárult, miután a készüléket az USA Szövetségi Kommunikációs Bizottsága (FCC) is jóváhagyta...

MA 13:17

Az orosz űrközpont károkat szenvedett a közös orosz–amerikai kilövés után

🚀 A kazahsztáni Bajkonur űrközpont indítóállása megsérült, miután egy közös orosz–amerikai küldetés sikeresen elstartolt csütörtök hajnalban...

MA 12:49

Az autóipart is felrázta az óriási Nexperia-botrány

🚗 A holland Nexperia chipgyártónál eldurvult a helyzet: a cég nyílt levélben szólította fel kínai leányvállalatát, hogy sürgősen állítsa helyre az ellátási lánc működését...