Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

kedd 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

szerda 20:49

A Mars rejtélyes hatása: tényleg alakítja a Föld éghajlatát?

Évmilliók óta váltakoznak a jégkorszakok és melegebb időszakok a Földön, amit bolygónk pályájának és tengelyferdeségének finom változásai irányítanak...

szerda 20:33

A King Gizzard kivonul, MI-klónok lepik el a Spotify-t

🎧 Miután az ausztrál King Gizzard & the Lizard Wizard hangos tiltakozás közepette elhagyta a Spotify-t, a rajongók megdöbbenve tapasztalták, hogy a platform máris MI által generált klónokat kínál helyettük...

szerda 20:19

Az MI-chatbotok csődöt mondanak az öngyilkossági segélyvonalakon

Ez a jelenség jól illusztrálható azzal, hogy egyre többen fordulnak MI-hez lelki problémáikkal, de a legnépszerűbb chatbotok váratlanul rosszul vizsgáztak abban, hogyan reagálnak az önsértési vagy öngyilkossági gondolatokat tartalmazó kérésekre...

szerda 20:02

A lítium trónkövetelője? Berobbanhat a nátrium‑ion akkumulátor

⚡ Tipikus eset, amikor a tudósok egy váratlan áttöréssel rukkolnak elő, amely akár felforgathatja az akkumulátorok piacát...

szerda 19:50

Az eddig mért leghosszabb gammakitörés rejtélye felforgatta az asztrofizikát

🚀 Érdemes megérteni, hogy a gammakitörések (GRB) a világegyetem legnagyobb energiájú robbanásai, mégis megfejthetetlennek tűnnek...

szerda 19:34

A Bluebird-hadművelet Musk bakiját meglovagolva indítaná újra a Twittert

Tipikus eset, amikor egy kihagyott ziccer visszaüthet: egy amerikai startup úgy véli, Elon Musk végzetes hibát vétett, amikor a legendás Twittert X-re nevezte át, és ezzel végleg eltüntette a logót és a márkanevet a térképről...

szerda 19:17

Az új Spiderman adathalász-szolgáltatás Európa bankjait veszi célba

🕵 Egy új, Spiderman nevű adathalász eszköz jelent meg, amely valósághű másolatokat készít több európai bank és kriptopénztárca oldalairól...

szerda 19:01

Az Nvidia már a tartózkodási helyedet is követné: jön a nyomkövető MI‑chip

Az Nvidia új, helymeghatározásra alkalmas technológiát fejlesztett, amely képes megmondani, pontosan melyik országban működnek az MI-chipjei...

szerda 18:49

Az MI-képzés káosza: mindenki mást okol

😕 A munkahelyi MI-képzés nélkül ma már nehéz lenne lépést tartani: az alkalmazottaknak elengedhetetlen megtanulni, hogyan használják a mesterséges intelligenciát anélkül, hogy veszélyben éreznék az állásukat vagy a karrierjüket...

szerda 18:33

A manhattani dugódíj máris kitisztította a levegőt

Januárban indult New Yorkban a dugódíjrendszer, amelyben az autósok csúcsidőben 3500 Ft-ot (kb...

szerda 18:18

A gyenge kód leállítja a gyártást – milliárdos bukó a vége

💥 Meg kell vizsgálni, hogy a gyártóvállalatok miért nem engedhetik meg maguknak a gyenge szoftverfejlesztést, és miért vált kulcskérdéssé, hogy már a fejlesztés során beépüljön a biztonság, ne pedig utólag próbálják meg védeni az elkészült alkalmazásokat...

szerda 18:02

Az ultravékony nanomembrán átírhatja az orvosi implantátumok játékszabályait

Egy dél-koreai kutatócsoport új, ultravékony és rendkívül hajlékony bioelektronikai nanomembránt fejlesztett ki, amely képes szinte észrevétlenül kapcsolódni az élő szövetekhez...

szerda 17:34

Az MI‑chipversenyben a győztes már rég nem Kína

Érdekes felvetés, hogy az utóbbi évek amerikai exportkorlátozásai, amelyek célja Kína elzárása volt az élvonalbeli félvezetőktől, végül inkább Kína saját technológiai fejlesztését pörgették fel, mintsem lassították volna azt...

szerda 17:17

Az ukrán hekkernő az orosz kibertámadások titkos segítője

🕵 Az amerikai hatóságok vádat emeltek egy 33 éves ukrán nő, Victoria Eduardovna Dubranova (ismertebb nevén Vika, Tory vagy SovaSonya) ellen, mert orosz hátterű hekkercsoportokat segített kibertámadásokban világszerte, többek között amerikai vízrendszerek, választási rendszerek és atomerőművek ellen...

szerda 17:03

Jön az ausztrál tinédzser közösségimédia-tilalom: új korszak indul?

Érdemes megvizsgálni, hogy miért kelt világszerte ilyen nagy visszhangot az ausztrál döntés, amely elsőként tiltotta be országos szinten a 16 év alattiak közösségi médiához való hozzáférését...

szerda 16:49

Az adelaide-i zöldterületek fenntarthatósága veszélyben?

Adelaide városának zöldterületei kulcsszerepet játszanak a klímaszabályozásban, a biodiverzitás megőrzésében és az élhetőség javításában...

szerda 16:33

A perzselő hőség hátráltatja a kisgyermekkori fejlődést

A szokatlanul magas hőmérséklet miatt a kisgyerekek egyre nehezebben érik el a korai tanulási mérföldköveket, leginkább az olvasás és a matematika terén...

szerda 16:17

A Mars-utazás küszöbén állunk – tényleg ennyire közel?

Az Egyesült Államok Tudományos, Mérnöki és Orvostudományi Akadémiái egy átfogó jelentésben részletesen bemutatják, miért lenne sorsfordító, ha végre űrhajósokat küldenénk a Marsra...