2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

szombat 21:46

Az ausztrál laborokban tápfolyadékot kapnak az idegsejtek

🧠 A nap kezdetén a melbourne-i Cortical Labs adatközpontjában nem a kávé és a szerverek zaja jelenti a rutint: a technikusok először egy agy-gerincvelői folyadékra emlékeztető oldatot töltenek a számítógépekbe...

szombat 21:35

Az E Ink monitor, amit jobb, ha csak megálmodsz

A Bigme B251 egy szemet gyönyörködtető újdonságként próbál berobbanni a monitorpiacra, hiszen 25,3 colos színes E Ink kijelzővel várja a felhasználókat...

szombat 21:23

Az új MacBook Air M5: király, vagy örök középső?

💻 Oké, mindenki figyeljen: megjelent az új MacBook Air M5, de ha instant forradalmat vársz, csalódni fogsz...

szombat 21:12

Az új MacBook Neóból ezek az appok hozzák ki a maximumot

💻 Az új MacBook Neo az Apple-től váratlanul alacsony áron jelent meg a héten, ami nagy meglepetést keltett a technológiai világban...

szombat 21:01

Valóban elűzi az internet unalmát a BuzzFeed kreatív játszótere?

A BuzzFeed ismét robbant: a cuki kvízeiről elhíresült oldal most egy igazán bevállalós új projektet indított Branch Office néven...

szombat 20:45

A papírnaptár, amelyre a Google Naptár is féltékeny

Oké, valljuk be: a hagyományos papírnaptárat még mindig semmi nem tudja teljesen kinyírni...

szombat 20:34

Az eltűnt skóciai római erőd titkainak nyomában

Skóciában régészek egy eddig ismeretlen római erőd maradványaira bukkantak, a Hadrianus-faltól jóval északabbra...

szombat 20:23

Az önellátás kulcsa: áram és meleg víz fából

Fontos kérdés, hogyan lehet megbízhatóan áramot és meleg vizet előállítani úgy, hogy közben nem függünk a nagy energiaszolgáltatóktól...

szombat 20:12

Végre megszületett a legendás hatszögletű gyémánt?

💎 Egy új kínai kutatás meggyőző bizonyítékokkal támasztja alá, hogy sikerült előállítani a régóta vitatott hatszögletű gyémántot, amely minden eddigi anyagnál keményebb lehet...

szombat 20:02

Az amerikaiak negyede már bedől a deepfake-hívásoknak – megállíthatatlan az MI?

Az elmúlt egy évben az amerikaiak 25 százaléka tapasztalt deepfake hanghívást: ismerősnek tűnő, ám mesterségesen klónozott hanggal próbáltak pénzt vagy adatokat kicsalni tőlük...

szombat 19:56

A virágokat tényleg az evolúció mentette meg a kihalástól?

2012 és 2015 között Kaliforniában az elmúlt 10 ezer év legsúlyosabb aszálya pusztított...

szombat 19:46

Az MI új fegyvere: miként válik a GPS a hajózás rémálmává?

🚢 A modern tengerhajózás ma már elképzelhetetlen GPS-navigáció nélkül. Olajszállító óriások, kutatóhajók és rakományt szállító hajók mind-mind a műholdas helymeghatározásra támaszkodnak...

szombat 19:35

Az olaj végnapjait éli, a Nap vándorol, a QR-kód zsugorodik

🌑 Régészeti felfedezések sora kavarta fel a tudományos világot: egy cseh kerti pajta alapkövéről derült ki, hogy valójában egy 3300 éves bronzkori öntőforma, amellyel sarlókardokat készítettek...

szombat 19:23

Az éghajlatváltozás már a Föld forgását is lassítja

🌎 A Föld forgása jelenleg olyan ütemben lassul, amilyenre legalább 3,6 millió éve nem volt példa...

szombat 17:45

Az óriási örvények titka tárul fel Grönland jégpáncélja alatt

Grönland hatalmas jégtakarójának mélyében óriási, örvénylő struktúrákat fedeztek fel tudósok, amelyek olykor forrongó üsthöz hasonlóan mozognak...

szombat 17:35

A vakbél: felesleges szerv vagy az evolúció rejtett aduásza?

Az emberek többsége akkor szembesül a vakbelével, amikor az fájdalmassá válik, és életveszélyes gyulladás miatt műtétre van szükség...

szombat 17:23

Az új Snapdragon-bakit villámgyorsan javítják – megéri most frissíteni?

⚡ Fontos kérdés, hogy a legújabb Snapdragon 8 Elite Gen 5 csúcstelefonokat egy komoly sebezhetőség érinti, amelyet a Xiaomi ShadowBlade Security Lab kutatói fedeztek fel...

szombat 17:13

A mesterséges intelligencia újraírja a rajongói kultúra szabályait

A rajongók évtizedeken át csupán szemlélői voltak kedvenc filmjeiknek, sorozataiknak vagy zenei előadóiknak...

szombat 17:01

A haj növekedéséről mindent rosszul tudtunk – íme az igazság

💪 Évtizedek óta abban a hitben élünk, hogy hajunkat a gyökérben osztódó sejtek tolják kifelé a fejbőrből, a legfrissebb kutatások viszont egészen új, meglepő magyarázatot tártak fel...

szombat 16:57

A nagy Android-asztali párbaj: Samsung DeX vagy Pixel Desktop?

💻 Az okostelefonok asztali üzemmódban immár tényleg kihívók a számítógépek világában, legalábbis ha a Samsung DeX-re vagy a Google vadonatúj Pixel Desktopjára nézünk...

szombat 16:35

Az xAI-nál káosz tombol: Elon Musk a Holdra hajt

🚀 Elon Musk, miután összeolvasztotta a SpaceX-et az xAI-jal egy közel 455 milliárd forintos (1,25 milliárd dolláros) üzletben, újabb elbocsátási hullámot rendelt el az xAI mesterségesintelligencia-céget irányítva...

szombat 16:23

Az új brazil adócsomag padlóra küldheti a kriptoszektort

📈 A brazil pénzügyi és fintech szektor kulcsszereplői élesen tiltakoznak a kormány legújabb adóterve ellen, amely a stabilcoin-tranzakciókra is kiterjesztené az IOF nevű pénzügyi műveleti adót...

szombat 14:03

A cambridge-i áttörés: fény forradalmasítja a gyógyszermódosítást

💡 Egy váratlan laborhiba hozta meg azt a forradalmi áttörést, amelynek köszönhetően fény segítségével lehet jelentősen egyszerűsíteni a gyógyszermolekulák átalakítását a fejlesztés késői szakaszában...

szombat 13:45

A szójáték, amit most mindenkinek ki kell próbálnia – Josh Wardle-től

Szevasztok, szórajongók! Vége a Wordle-monopóliumnak, mert Josh Wardle, aki világszerte megbabonázott minket a kis színes négyzetekkel, most megint szintet lépett...

szombat 13:34

Az elektromos pickup, amiért megőrül a világ

🚗 Régi Ford pickup, új élet: belül már nem zakatol a klasszikus V8-as motor, helyette egy Tesla-alapú akkumulátorcsomag tölti meg energiával a veterán platós járgányt...

szombat 13:23

A Meta újra felkavarja a hírvilágot – indul a nemzetközi hírözön?

📰 A Meta újabb lépéssel próbálja fokozni az aktuális világhírekhez való hozzáférést – ehhez most komoly nemzetközi partnerségeket kötött kiadókkal...

szombat 12:03

Az amerikai jólét átrendeződik: hol fialhat most a pénz?

A vállalatok hosszú távú sikerét ma már nem pusztán az határozza meg, milyen tehetségeket tudnak magukhoz vonzani, vagy mennyi pénzzel rendelkeznek, hanem hogy hol helyezik el működésüket, hogyan választják meg beszállítói láncaikat, illetve mely területeken ruháznak be...

szombat 11:46

A hordozható monitorok olcsó királya? KYY K3 teszt

💻 A hordozható monitorok egyre elterjedtebbek, és manapság bőven válogathat mindenki a különböző modellek közül...

szombat 11:23

Az Outlook megint bakizik: hibák, félmegoldások, bosszús felhasználók

🙁 A klasszikus Outlook asztali kliensben egyre több szinkronizációs és kapcsolódási probléma bosszantja a felhasználókat...