Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

hétfő 21:00

Az Instagram felrobbant: Kylie Jenner ismét bikiniben pózol

A hétfői rosszkedvre itt a tökéletes ellenszer: Kylie Jenner újabb bikinis szelfivel lepte meg követőit, és elképesztően néz ki...

MA 18:18

Az MI már most az amerikai állások bő tizedét kiválthatja

A Massachusetts Institute of Technology és az Oak Ridge National Laboratory friss kutatása alapjaiban forgathatja fel a mesterséges intelligencia munkaerőpiacra gyakorolt hatásáról alkotott elképzeléseket...

MA 18:02

A Mars ősi jégkorszakának nyomai végre napvilágra kerültek

A Mars felszínének rég nem látott titkait tárták fel a legfrissebb képek: az egykori jégkorszak drámai öröksége most először válik igazán láthatóvá...

MA 17:49

Az MI miatt hatezer HP-alkalmazott kerülhet utcára

Nagy leépítési hullámra készül a HP, miután bejelentették, hogy akár hatezer dolgozót is elküldenek az elkövetkező három évben...

MA 17:34

Az ünnepi lakoma előtti koplalásért csúnyán megbosszul a gyomrod

Az ünnepi időszakban sokan arra esküsznek, hogy érdemes kihagyni akár a reggelit vagy az ebédet is, hogy aztán este korlátlanul élvezhessék a finomságokat...

MA 17:18

Az etióp vulkán 12 ezer év után újra életre kelt

🔥 Észak-Etiópiában, az Afar régiójában fekvő Hayli Gubbi vulkán 12 000 évnyi csend után vasárnap reggel óriási erővel tört ki, hatalmas hamu- és füstfelhőt eregetve a Vörös-tenger irányába...

MA 17:02

Megvan az első közvetlen bizonyíték a sötét anyagra?

Majdnem száz éve feltételezik, hogy egy láthatatlan, rejtélyes anyag, a sötét anyag szövi át a világegyetemet, és galaxishálózatokat formál...

MA 16:50

Az igazság, amit eltitkolnak: a bevándorlók gazdasági haszna

💰 A migrációval kapcsolatos hírek jellemzően fenyegetést vagy veszélyt sugallnak, holott a kutatások alapján a bevándorlás számos előnyt hoz a fogadó országoknak...

MA 16:34

A filléres MI-bűnözés kora: WormGPT 4 és KawaiiGPT

💸 Senki sem várta volna, hogy az MI-alapú támadások ilyen gyorsan elérhetővé válnak szinte bárkinek, de most, akinek van 80 000 forintja, életre szóló hozzáférést szerezhet egy bűnözésre fejlesztett nagy nyelvi modellhez, a WormGPT 4-hez...

MA 16:01

Az Alibaba Cloud nem győzi az MI-keresletet

🔥 Az Alibaba Cloud sosem látott MI-őrületet él át Kínában: hiába bővíti folyamatosan a szerverparkját, egyszerűen nem bír lépést tartani a növekvő kereslettel...

MA 15:50

Az izomnövelő olaj évekkel később halálos árat követelt

💉 Megvizsgálták, hogy egy 60 éves varsói férfinél mi vezetett drámai izomtorzuláshoz és életveszélyes, megemelkedett vérkalciumszinthez...

MA 15:33

Az OLED-panelek mostantól kapcsolhatók: irányított fény gombnyomásra

Az Oxfordi Egyetem kutatóinak sikerült először olyan OLED (organikus fénykibocsátó dióda) technológiát fejleszteniük, amely elektromos jellel képes váltani a kibocsátott fény „forgásirányát”, vagyis bal- vagy jobbkezes körpolarizált fényt hoz létre – anélkül, hogy a fényt kibocsátó molekulákat ki kellene cserélni...

MA 15:18

Az űrállomás hősei: kulisszatitkok a kínai űrmentésről

Érdekes felvetés, hogy a világűrben dolgozó űrhajósok élete mennyire függ a biztonsági tartalékmegoldásoktól...

MA 15:02

Az Nvidia nekiment a Google MI-gyorsítóinak a Meta miatt

🛡 Fontos kérdés, hogy komoly fenyegetést jelenthet-e a Google saját fejlesztésű MI-gyorsítója, a TPU az Nvidia által uralt piacra – főleg, hogy a Meta állítólag fontolgatja a váltást...

MA 14:50

Az mRNS-terápia áttörést hoz az antibiotikum-rezisztencia elleni harcban

Fontos megérteni, hogy az antibiotikum-rezisztens fertőzések világszerte egyre nagyobb fenyegetést jelentenek...

MA 14:34

Az ember legjobb barátja mégiscsak farkas maradt?

🐶 A modern kutyafajták többsége ma is aprócska mennyiségű farkasgéneket hordoz, méghozzá nem is az ősidőkből, hanem viszonylag friss, néhány ezer éves keveredésekből...

MA 14:02

A Poco új telefonja már mélynyomóval támad

🔊 A Poco új F8 szériája igazi különlegességet kínál: az F8 Ultra modell már mélynyomóval is felszerelt, így a mobilhangzás új szintjét hozza el...

MA 13:50

Az Északi-tenger szén-dioxid-temetője: áttörés a klímavédelemben?

Erre utal többek között az, hogy az elhagyott Nini olajmező a zord Északi-tengeren most új szerepet kap: Európa első tengeri szén-dioxid-tárolójává válik...

MA 13:33

A Garmin új csodája átírhatja a viselhető kütyük szabályait

🚀 A Garmin egyre nagyobb izgalmat kelt a viselhető eszközök piacán: titokzatosan beharangozott egy új kütyüt, amelyet a viselhetők jövőjének nevez...