2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 12:20

Az MI kora: a tanulás és munka új szövetsége

Az ipari korból örökölt életforgatókönyv – tanulj, dolgozz, vonulj nyugdíjba – ma már egyre kevésbé érvényes...

MA 11:55

A nagy áttörés: az óceánok védelme valósággá válik

Tizennégy éve tudósok, környezetvédők, fotósok és hírességek – köztük Leonardo DiCaprio és Edward Norton – együtt hajóztak a Galápagos-szigetek körül egy National Geographic-expedíción, hogy felhívják a figyelmet az óceánok sérülékenységére...

MA 11:20

Az első CES: a Bucket Robotics kalandos túlélőtúrája

Egy startuppal megjelenni a világ egyik legnagyobb technológiai rendezvényén önmagában sem kevés kihívás...

MA 11:01

A kanadai gigaadatlopás: 750 ezer befektető adatai veszélyben

A Kanadai Befektetési Szabályozó Testület (CIRO) elismerte, hogy egy tavalyi kibertámadás következtében csaknem 750 000 kanadai befektető adatai szivárogtak ki...

MA 10:58

A pufók bolygók felfedik a születő világok titkait

Egy friss tanulmány több mint egy évtizedes megfigyeléssorozat alapján soha nem látott részletességgel mutatja meg, hogyan fejlődnek a bolygók egy fiatal naprendszerben...

MA 10:49

Az internet új rekordja: villámgyors letöltés hétköznapi optikai kábelen

Jelentős áttörés született az adatátviteli sebességek terén: kutatók 430 000 Gbps (azaz 430 Tbps) sebességet értek el hagyományos optikai szálas kábellel, amellyel egy 80 GB méretű játék, például a Csatatér 6 (Battlefield 6) egyetlen ezredmásodperc alatt letölthető lenne...

MA 10:41

Az ezüst hozta el a szilárdtest-akkumulátorok nagy áttörését

Többek között egy atomosan vékony ezüstréteg lehet a megoldás, amely áttörést hozhat a régóta várt, biztonságosabb, nagyobb energiasűrűségű és gyorsabb töltésű szilárdtest-akkumulátorok fejlesztésében...

MA 10:33

A Hyperliquid tarol: a kriptotőzsdék új királya

💰 A decentralizált határidős piacokon egyre látványosabban tör előre a Hyperliquid, miközben vetélytársai, az olyan platformok, mint az Aster és a Lighter, egyre inkább lemaradnak...

MA 10:25

Az új Windows-frissítés után nem áll le a gép? Itt a vészjavítás!

⚠ Ha az elmúlt napokban nem tudtad leállítani a Windows 11-es géped, nem te vagy az egyetlen: a januári biztonsági frissítés után több felhasználónál csak újraindult vagy alvó módba lépett a számítógép, hiába próbálták kikapcsolni...

MA 10:18

Az MI nem ellenség, az adatok diktálják a zene jövőjét

Az utóbbi években a zeneiparban óriási átalakulás zajlik: az MI nemcsak jelen van, hanem máris teljesen átrendezi a szabályokat...

MA 09:58

A mesterséges intelligencia elszabadult: aranykor vagy káosz a zenében?

Az elmúlt évek egyik legbeszédesebb példája Bad Bunny sikere: amikor az NFL és az Apple Music bejelentette, hogy ő lesz a 2026-os Super Bowl félidei show főfellépője, sokakat meglepett...

MA 09:49

A chilei rémálom folytatódik: lángtenger, káosz, tömeges kitelepítés

Dél-Chile tüzei ismét lesújtottak: már legalább 15 halálos áldozatot követelnek az elszabadult erdőtüzek, és több mint 50 ezren kényszerültek elhagyni otthonukat...

MA 09:41

Az öntudatos MI csábító, de veszélyes mítosz

A tudatosság, mint számítás? A tudatos MI ötlete abból a feltevésből indul ki, hogy maga a tudatosság is puszta számítási folyamat eredménye...

MA 09:33

A közösségi trón új ura: a Threads letaszította az X-et mobilon

👑 Az utóbbi hónapokban a Threads, a Meta új közösségi alkalmazása egyre több felhasználót hódított meg, és már lenyomta Elon Musk X-ét (korábban Twitter) a napi aktív mobilhasználók számában...

MA 09:18

Az USA–Tajvan chipmegállapodása: marad a szilíciumpajzs?

🛠 Tajvan még jó ideig megőrizné a világ csúcstechnológiájú chipgyártásának otthonát – annak ellenére, hogy Washington komoly lépéseket tesz azért, hogy a sziget legfejlettebb félvezetőgyártó kapacitásának egy részét az Egyesült Államokba költöztesse...

MA 09:10

Az emberi szem titkából született fototranzisztor forradalmasítja a gépi látást

A Kínai Tudományos Akadémia Fémkutató Intézetének tudósai úttörő érzékelőt fejlesztettek, amely az emberi szemhez hasonlóan alkalmazkodóképes, és extrém érzékenységgel képes alacsony kontrasztú célpontokat észlelni...

MA 09:01

Az amerikai diplomások előnye elveszett: nem jutnak gyorsabban álláshoz

Az Egyesült Államokban évtizedekig a főiskolai diploma jelentette a gyorsabb elhelyezkedés kulcsát, de ennek most vége szakadhat...

MA 08:49

Megint gond van a Windows-frissítéssel? Itt a sürgősségi javítás

A januári biztonsági frissítések után számos Windows 10 és 11, valamint Windows Server gép szorult sürgősségi, úgynevezett OOB (out-of-band) javításra...

MA 08:42

Az új szuperszója átírja a tejipar szabályait

Dél-Michiganben, a Preston család tejgazdaságának 160 hektáros szójaföldje első ránézésre teljesen átlagos...