2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 19:45

A Spotify-on már könyveket is vehetsz – nem vicc!

A Spotify újabb meglepetéssel állt elő: mostantól fizikai könyveket is vásárolhatsz az alkalmazáson belül...

MA 19:34

Az új Windows Task Host-hiba: tényleg van okunk aggódni?

A Windows Task Host nevű rendszerkomponens súlyos sérülékenysége miatt ismét veszélybe kerülhetnek a felhasználók és szervezetek: a sebezhetőség kihasználásával rosszindulatú támadók akár teljes rendszergazdai jogosultságot szerezhetnek a megfertőzött eszközökön...

MA 19:23

Az USA légterében zöld utat kaptak a drónvadász lézerfegyverek

Az Amerikai Szövetségi Légügyi Hivatal (FAA) hivatalosan is jóváhagyta a drónok elleni nagyenergiájú lézerfegyverek bevetését az Egyesült Államok légterében...

MA 19:12

A vadonatúj Gemini végre igazi Mac-élményt hoz

💻 Érdemes megvizsgálni, hogy mennyivel könnyebb és gyorsabb lett a Google Gemini használata Macen: mostantól nem kell böngészőt nyitni, elég letölteni a natív macOS-alkalmazást – így közvetlenül az asztalról indítható a Google MI-chatbotja...

MA 18:46

Az Adobe nagy dobása: egy MI irányítja az összes kreatív szoftvert

Az Adobe ma új korszakot nyitott a kreativitásban: bemutatta a vadonatúj Firefly MI Assistantot, amely képes egyszerre irányítani a cég összes zászlóshajó-alkalmazását – legyen szó Photoshopról, Premieréről vagy Illustratorról...

MA 18:34

Az élet nyomai: földönkívüliek rejtőzhetnek a mintákban

A kutatók egyik legnagyobb kihívása az, hogy miként azonosítható az élet idegen bolygókon, amikor a klasszikus jelek, például a biomarkerek vagy bizonyos gázok, más folyamatokból is származhatnak...

MA 18:23

Az önvezető autók igazi tűzpróbája: London káosza

🚗 Érdekes felvetés, hogy az amerikai utakon már jól vizsgázó önvezető autók mire mennek London szűk utcáin...

MA 17:23

A zsebben elfér: a világ legkisebb e-könyv-olvasója

Az a miniatűr e-könyv-olvasó, amelyet egy lelkes YouTuber, Paul Lagier fejlesztett ki 3D-nyomtatott házzal és házilag összeállítható elektronikai alkatrészekkel, alig nagyobb egy felnőtt hüvelykujjánál...

MA 17:01

Az asztalra kattintasz, és eltűnnek: a Windows 11 utoléri a Macet

Ebből következően érdemes megérteni, hogy a Windows 11 most egy meglepően alap, de annál kényelmesebb funkcióval bővült: egy kicsi, ötletes segédprogrammal, amely leveszi az állandó ablakzsonglőrködés terhét, főleg, ha túl sok program fut egyszerre...

MA 16:45

Az automata Windows-frissítés megint bakizott, de nem lesz 2025-ös a szervered

Az elmúlt évben sok rendszergazda szembesült azzal, hogy a Windows Server 2019 vagy 2022 rendszerük egyik napról a másikra, szinte varázsütésre Windows Server 2025-re frissült – ráadásul sokszor anélkül, hogy bárki licencet szerzett volna rá...

MA 16:24

A mesterséges intelligencia nemcsak a Szilícium-völgyé: Demis Hassabis londoni diadala

💻 Vannak, akik már gyermekkorukban is komoly tehetségről tesznek tanúbizonyságot. Demis Hassabis is közéjük tartozik: hatévesen még csak szülei bátorítását hallgatta, de már ekkor elgondolkodott azon, hogy mit is jelent igazán a legjobbat nyújtani...

MA 16:14

Az Apple Watch vagy a Whoop Band: melyik illik hozzád jobban?

Az okosórák és fitnesz-karkötők piaca hatalmas ugrásokon megy keresztül, különösen olyan innovációknak köszönhetően, mint a mesterséges intelligencia, amely a nyers egészségügyi adatokat hasznos tanácsokká alakítja át...

MA 16:01

Az aranyszínű grafén átírja a fizika egyik alaptörvényét

A tudományban ritka pillanat, amikor az anyagok viselkedése teljesen átír egy jól ismert fizikai törvényt...

MA 15:56

Az új MI-ikonokat imádják a Pixel-tulajok, mégis hiányzik valami

😍 A Google legutóbbi újítása, a Pixel Launcher MI által generált egyedi ikonjai, azonnal megnyerték a felhasználók többségének tetszését...

MA 15:46

Az ősi szerszámok titka: kapcsolódott-e a Homo erectus a kozmoszhoz?

🔬 Izraelben rendkívüli régészeti leletre bukkantak: a Sakhnin-völgyben legalább tíz olyan őskori kőbaltát találtak, amelyeket nem véletlenszerűen, hanem tudatosan, különleges ásványi anyagok, kövületek és geodák felhasználásával készítettek...

MA 15:34

Az új Steam árfigyelő mindenkinek beválik, vagy megint félmegoldás?

💸 A Valve nagy erőkkel dolgozik a Steam Machine piacra dobásán, de miközben a RAM- és tárhelyhiány miatt a konzol-PC bevezetése csúszhat, a cég folyamatosan készíti elő a digitális bolt fontos funkcióit is...

MA 15:13

Az agytorna késleltetheti az Alzheimer-kórt – ez lehet a kulcs?

Az élet során végzett, szellemileg megterhelő tevékenységek, mint az olvasás, az írás vagy idegen nyelvek tanulása, jelentősen befolyásolhatják az időskori agy egészségét...

MA 15:01

A hajlítható iPhone: Fold helyett Ultra érkezik?

Az Apple alaposan felkavarja az okostelefonos állóvizet: hamarosan bemutatkozhat az első hajlítható iPhone, amely minden előzetes találgatással szemben nem iPhone Fold, hanem iPhone Ultra néven érkezik...

MA 14:56

A csúcs egyszerre mérföldkő és plafon: visszacsúszik a bitcoin

📈 Tipikus eset, amikor a piac izgatottan vár egy kiemelt szint áttörésére, mégsem sikerül: a bitcoin ismét elakadt a 75 000 dolláros (27,2 millió forint) csúcsnál, és lefordult a keddi, közel 76 000 dolláros (27,6 millió forint) kísérlet után; jelenleg 73 900 dollár (26,8 millió forint) körül forog...

MA 14:46

Az otthoni biztonsági kamerák 8 leggyakoribb vakfoltja, amire a betörők pont számítanak

Ez a jelenség jól illusztrálható azzal, hogy a legtöbb háztulajdonos azt hiszi, egy biztonsági kamera felszerelésével hátradőlhet, pedig egy rossz helyre helyezett kamera csak dísz a falon...

MA 14:35

Az igazság a 12-3-30 módszerről: csodaszer vagy lufi?

🧐 Fontos kérdés, hogy létezik-e olyan mozgásforma, amely minimális idő- és energiaráfordítással maximális eredményt hoz...

MA 14:23

A kényelem ára: csapda lehet az Anthropic új MI-je a cégeknek?

A vállalatoknak egyre nagyobb kihívást jelent a mesterséges intelligenciára épülő ügynökök bevezetése és működtetése, különösen, amikor ezek összetett irányítási rendszereket igényelnek...

MA 14:01

Az új Gemini: csevegőtársból igazi kolléga lett?

🤖 A Gemini hamarosan túlléphet a hagyományos csevegőfunkción: a legújabb fejlesztésekkel képes lehet komplex munkafolyamatok kezelésére, amelyek eddig csak emberi közreműködést igényeltek...

MA 13:56

Az új Surface-ek brutálisan drágultak: 300 ezres ugrás, eltűntek az olcsók

💸 Az elmúlt két évben alaposan átalakult a Surface PC-k kínálata, igaz, nem úgy, ahogy azt sokan várták...

MA 13:35

Az űrhajósok ujjonganak: látványos meteorbecsapódások a Holdon

Az Artemis II űrhajósainak jelentős felfedezése örömmel töltötte el a kutatókat: a Hold felszínén villanó meteorbecsapódások nemcsak látványosak, hanem kulcsfontosságú információkat hordoznak a jövő holdbeli missziói számára...

MA 13:13

Itt az olcsóbb, gyorsabb képgenerálás: a Microsoft új MI-modellt dobott piacra

📸 A Microsoft bemutatta legújabb képgeneráló MI-modelljét, amely olcsóbb és gyorsabb, mint elődjei...

MA 12:48

Az ázsiai rizs a szakadék szélén: a klímaváltozás átlépte a túlélési hőhatárt

Az ázsiai rizs, több mint egymilliárd ember alapélelmiszere, évezredek óta meghatározza a régió kultúráját és gazdaságát...

MA 12:35

Az irányított káosz: a robotrajok titkos ütőkártyája

A robotrajok hatékonyabbá válásához néha semmi sem működik jobban, mint egy jó adag véletlenszerűség...

MA 11:45

Az FCC monopóliumhoz juttatta a Netgeart az otthoni routerpiacon

Az Egyesült Államokban bevezetett új routertilalom alól egyedül a Netgear kapott kivételt a Szövetségi Kommunikációs Bizottságtól (FCC)...