2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 11:35

Az extrém aszály térdre kényszeríti Corpus Christit: vihart kérnek

A déli Texasban fekvő Corpus Christit a hosszú évek óta tartó szárazság kritikus helyzetbe sodorta...

MA 11:24

A kínai repterek új réme: kötelező powerbank-ellenőrzés

Kína nemcsak a kulturális különbségekről, hanem a technológiai szabályokról is híres...

MA 11:13

Az MI és a hit találkozása: egy chatbot útkeresése

A technológiai fejlődés eddig soha nem látott dilemmák elé állítja az emberiséget...

MA 10:57

A Surfshark új Dausos protokollja: villámgyors VPN, nagyobb biztonság

A megszokott VPN-élményt most egy újítás emeli magasabb szintre, amely akár 30%-kal gyorsabb sebességet, fejlettebb adatvédelmet és dedikált, privát szerveroldali alagutat kínál minden egyes felhasználónak...

MA 10:50

Az év kriptocsalása: milliárdnyi DOT-zápor, filléres zsákmány

Egy ügyes támadó vasárnap hajmeresztő, de végül szerencsétlen akciót vitt véghez az Ethereum hálózatán, ahol sikerült 1 milliárd Polkadot tokent (nagyjából 440 milliárd forint értékben) kibocsátania a Hyperbridge egyik hibás szerződésében...

MA 10:37

Az MI-háború új frontja: rohamra indulnak a nyílt modellek

🛡 A tavasz megérkezésével a Google, a Microsoft, az Alibaba és az Nvidia újabb hullámban jelentették meg az általuk fejlesztett nyílt súlyú MI-modelleket...

MA 10:29

Az elképesztő LEGO-rablás: csúfosan bedőlt a nagy terv

🧸 Milliós LEGO-lopás, menekülő, játékokkal teli dobozos teherautók, és persze mindenki azt hinné, hogy valami Guy Ritchie-film forog a Mojave-sivatagban...

MA 10:22

Az amerikai kormány le akarja leplezni egy Reddit-felhasználó kilétét

A bevándorlási és vámhatóság (ICE) hónapok óta próbálja felfedni egy Reddit-felhasználó kilétét, akit azzal vádolnak, hogy nyilvánosan bírálta az ügynökséget...

MA 10:15

Megakadt a Bitcoin szárnyalása – újabb akadály jött szembe

A Bitcoin árfolyama napok óta erősödött, ráadásul olyan tényezők is támogatták ezt, mint az ETF-beáramlás, a makrogazdasági hátszél vagy a Coinbase-en tapasztalt prémium...

MA 10:01

Az olcsó QHD-s hordozható monitor, amiért nem kár a pénz?

A hordozható monitorok piacán hatalmas a választék, mégis ritkán találni olyat, ami kompromisszummentes élményt ad alacsony áron...

MA 09:50

A Rómából hazatért fáraó: Luxor új csodája

Lényeges, hogy Luxorban, a Karnak templomkomplexumnál dolgozó régészek egy 2000 éves homokkő sztélét tártak fel, amelyen a római császár, Tiberius fáraóként jelenik meg...

MA 09:23

Az MI végleg beköltözött a fejlesztők gépeire – Mitől lesz vak a cég?

💻 Az elmúlt másfél évben a vállalati MI-biztonság legfontosabb szabálykönyve egyszerű volt: elég volt a böngészőt kontrollálni...

MA 09:15

A csúcskategóriás Androidok idén vörösben hódítanak – az Apple nyomán

Az okostelefon-gyártók évről évre próbálják feldobni csúcskészülékeik megjelenését, és úgy tűnik, idén egy vadonatúj szín hódíthatja meg a piacot...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/13

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     VSep (iPhone/iPad)A VSep egy mesterséges intelligencia alapú alkalmazás, amely képes a zeneszámokból elkülöníteni az éneksávokat...

MA 09:07

Az Escher-féle örök spirál: így készítsd el otthon a Droste-effektust

M. C. Escher képeiben minden benne van, amitől a matematika hirtelen menőnek tűnik: az örökké visszatérő, önmagát ismétlő mintázatok, amelyek egyre kisebb és kisebb méretben folytatódnak a rajzon belül, mintha egy vizuális örökkévalóság lenne...

MA 09:01

Az MI már Lennon nyomába ered – Soderbergh is beszáll

🎵 Egy lényeges szempont, hogy Steven Soderbergh, aki olyan kasszasikereket rendezett, mint a Forgalom (Traffic), a Tripla vagy semmi (Ocean’s Eleven) vagy a Magic Mike (Magic Mike), ezúttal John Lennon utolsó interjújáról készít dokumentumfilmet...

MA 08:57

A neandervölgyiek sötét lakomái: ősi kannibalizmus és kívülállók

🤤 Egy új belga kutatás a Goyet-barlangból származó neandervölgyi maradványok alapján megállapította, hogy körülbelül 41 000–45 000 évvel ezelőtt ezek az ősemberek szelektív kannibalizmust folytattak...

MA 08:52

Az MI-verseny vesztese lehet az igazi nyertes: az Apple titkos aduja

Megvizsgálandó, miként fordult meg az MI-verseny szele az Apple javára, miközben a nagy tech cégek dollármilliárdokat öntöttek szuperszámítógépekbe, tréningadatokba és szoftverfejlesztésbe...

MA 08:42

Az ARM-os Windows felforgatja a PC-piacot – Snapdragon X élményteszt

Minden jel szerint a Snapdragon X processzorok tényleg megérkeztek, és már a Windows 11 is fut az ezekből készült laptopokon...

MA 08:37

Az ősemberek elefántokat daraboltak, hogy nagyobbra nőjön az agyuk

🦖 Képzelj el egy lényt, amely majdnem kétszer akkora, mint a mai afrikai elefánt, tehát akár 5 900 kilogrammot is nyomhatott...

MA 08:29

Az iskola titkos fegyvere: robotmadarak a Grand Teton Nemzeti Parkban

A Grand Teton Nemzeti Parkban most robotmadarakat hívnak segítségül, hogy visszacsalogassák az egyre fogyatkozó zsályafajdakat...

MA 08:22

Az Amazon nyugdíjazza a régi Kindléket – kitört a felháborodás

Nem csoda, hogy rég nem látott felháborodás söpört végig a Kindle-táboron, miután az Amazon bejelentette: hamarosan véget ér a legöregebb e-olvasók támogatása...

MA 08:14

Az AI-fenevad Mythos felforgatja az infosec világát – vagy blöff?

🦁 A héten az Anthropic előállt a Mythos nevű mesterséges intelligenciájával, amely állítólag döbbenetes pontossággal találja meg és használja ki a nulladik napi sérülékenységeket...

MA 08:02

Az aszteroida, amely meteorzáporral üzeni: a Nap porrá égette

💥 A földi éjszakákon ezrek figyelik automata kamerákkal a hullócsillagokat, hogy bárki felfedezhesse a kozmikus látványosságokat...

MA 07:57

Az amerikai hadsereg milliárdokat pumpál a lézerfegyverekbe

Az amerikai védelmi minisztérium jelentősen növelni tervezi a lézerfegyverek és más irányított energiafegyverek fejlesztésére szánt forrásokat a 2027-es pénzügyi évben...

MA 07:43

Az Apple okosszemüvege tényleg divatforradalmat hoz – menő leszel?

👕 Az Apple évek óta mindenki kíváncsiságát csigázza a saját okosszemüvegével, és úgy néz ki, már nem kell sokat várni: akár négy különböző modellből választhatsz majd, ha végre boltokba kerülnek...

MA 07:36

A Marimo új sebezhetősége már a titkaidra vadászik

Egy súlyos sérülékenység jelent meg a Marimo nevű nyílt forráskódú, Python-alapú notebook-platformon, amelyet adatkutatók, fejlesztők és MI-szakemberek használnak világszerte...

MA 07:29

Az OpenAI kontra Musk: indul a nagy jogi balhé

Komolyan mondom, egyre szürreálisabbá válik Elon Musk harca az OpenAI-jal, ahogy közeledik a tárgyalás napja...

MA 07:23

A mesterséges intelligencia és a DNS feltárja az ősi kéziratok titkait

🔎 Ma már a legmodernebb tudományos módszerek segítségével kutatók képesek feltárni, milyen állatok bőréből készült évszázadokkal ezelőtt a kéziratok pergamenje – mindezt úgy, hogy közben a legkisebb kárt sem tesznek a felbecsülhetetlen értékű történelmi dokumentumokban...