2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 17:38

Az MI váratlan arca: erre nem készített fel a kézikönyv

🤔 Az MI-vel foglalkozó kutatók újabb meghökkentő felfedezésre jutottak: a nagy nyelvi modellek spontán, előzetes utasítások nélkül is képesek önálló személyiséget kialakítani...

MA 17:20

Egy óriási fekete lyuk átírja a galaxisokról alkotott képet

🔵 A Hawaii-n működő W. M. Keck Obszervatórium, a James Webb Űrtávcső és a Very Large Array rádióteleszkóp együttes megfigyelései során sikerült azonosítani egy hihetetlenül nagy, „imbolygó” fekete lyuk-kilövellést, amelynek átmérője egy teljes galaxis szélességével vetekszik...

MA 17:01

Az átváltozó polimerbőr: színt vált víz hatására

A Stanford Egyetem kutatói új polimert fejlesztettek, amely szabad szemmel látható mintákat és színeket hoz létre, ha vízzel érintkezik...

MA 16:56

Az Apple legújabb MI-kütyüje: tényleg senkinek sem kell?

🤔 Az Apple egy teljesen új, viselhető MI-eszköz kifejlesztésén dolgozik, amely akár 2027-ben piacra kerülhet...

MA 16:37

Az okoseszközöd már elavult? Nyugi, így hozd ki belőle a legtöbbet!

Az okoseszközök világa gyorsan változik, és amit évekig használtál, egy nap elveszítheti a gyártói támogatást...

MA 16:19

A bálnavadászat titkai: ősi szigonyok írják át a múltat

🐳 Első pillantásra úgy tűnt, a bálnavadászat csak az északi, fagyos vizek közösségeit jellemezte...

MA 16:01

A félvállról vett VMware-sebezhetőségek még mindig lecsapnak

⚠ A VMware vCenter Server kritikus, több mint egy éve javított sérülékenysége ismét aktív támadások célpontja lett...

MA 15:55

Az Nvidia Arm‑os laptopjai fenekestül felforgatják a piacot

⚡ Végre megtörni látszik az Intel és az AMD uralma a Windows laptopok világában: az Nvidia idén tavasszal akár nyolc Arm-alapú, Windowst futtató noteszgéppel készül a piacra lépni...

MA 15:39

Az USA kiberbiztonsági hivatala váratlanul távol marad az év legnagyobb IT-konferenciájától

🔒 Az amerikai Kiberbiztonsági és Infrastruktúra-biztonsági Ügynökség (CISA) nem vesz részt az idei RSA Conference-en, amelyet márciusban rendeznek San Franciscóban...

MA 15:19

Az ipari rendszerek Achilles-sarka: a telnetd sebezhetőség

Már 11 éve lappang egy rendkívül súlyos sebezhetőség a GNU InetUtils telnetd rendszerében, amit hackerek nemrég elkezdtek aktívan kihasználni...

MA 14:55

Az okosórák négyszer több szívritmuszavart szűrnek ki

Egy friss klinikai vizsgálat szerint a stroke szempontjából magas kockázatú, Apple Watchot viselő időseknél négyszer gyakrabban észleltek kóros szívritmuszavart, mint azoknál, akik csak hagyományos orvosi ellátásban részesültek...

MA 14:38

Az otthonod téli védelme: erre figyelj, mielőtt késő!

A tél nemcsak a meghittséget hozza el, hanem a veszélyeket is: a fagyott csövek, kéménytüzek, illetve a fűtési rendszer hibái könnyen súlyos károkat okozhatnak, amelyek akár több százezres javítási költségekkel is járhatnak...

MA 14:19

Az új aranybánya: a ShinyHunters tarol az SSO-fiókokon

Hihetetlen, de mégis igaz, hogy a hírhedt ShinyHunters zsarolócsapat ismét lecsapott, ezúttal vállalati SSO-fiókok feltörésével az Okta, a Microsoft és a Google rendszereiben...

MA 13:57

Az egyik leggyorsabban növekvő fekete lyukat fedezték fel az űrben

Néhány fekete lyuk szabálytalanul viselkedik: most a csillagászok egy olyan távoli kvazárt fedeztek fel, amelynek központi fekete lyuka minden eddigi elméletet meghazudtolva őrült tempóban falja fel a környező anyagot...

MA 13:37

A davosi csúcson MI-láz és geopolitika: erre fókuszálnak a techvezérek

💻 A világ legnagyobb technológiai cégeinek vezetői ismét Davosban találkoztak a Világgazdasági Fórumon, ahol az idei év legégetőbb témái kerültek terítékre...

MA 13:01

A Chromebookon nevelkedett diákokból lesznek a Google leghűségesebb vevői?

💻 A Google belső dokumentumai szerint már az iskolában elkezdődhet a márkahűség kialakítása, ha a diákokat idejekorán bevezetik a vállalat ökoszisztémájába...

MA 12:55

Vége a lazaságnak az amerikai reptereken: jönnek az új azonosítási díjak

Február 1-jétől az amerikai belföldi járatokra szigorúbb beléptetési feltételekre kell számítani, így akik nem rendelkeznek Real ID-vel vagy más elfogadott személyazonosítóval, akár 45 dolláros (kb...

MA 12:38

Az új, színes rádiókép felforgatja, amit a Tejútrendszerről tudtunk

Lenyűgöző, minden eddigit felülmúló rádiófrekvenciás felvételt készítettek a Tejútrendszerről, amely nemcsak csillagszületéseket, hanem szupernóvák maradványait és gigászi galaktikus szerkezeteket is láthatóvá tesz...

MA 12:20

Az emberformájú robotok kora: társaink vagy fenyegetés?

🤖 Érdemes megvizsgálni, hogy az emberformájú robotok rohamos fejlődése miként változtathatja meg mindennapjainkat, illetve milyen hatással lehet arra, hogyan viszonyulunk egymáshoz, az emberekhez...

MA 12:02

Megéri a Loch Capsule, az apró, villámgyors okos mosogatógép?

A Loch Capsule nevű pultra helyezhető mosogatógép minden szempontból igazi újdonság: kicsi, hatékony, gyors, sőt, még a kütyüket is fertőtleníti...

MA 11:55

Az SEC eláll a pertől: fellélegezhetnek a Winklevoss testvérek

Az amerikai Értékpapír- és Tőzsdefelügyelet (SEC) váratlanul visszavonta a pert a milliárdos Winklevoss testvérek nevével fémjelzett Gemini kriptotőzsdével szemben, amelyet a már megszűnt, Earn nevű befektetési termékük miatt indítottak...

MA 11:37

Az MI-kódsegédek falják a fejlesztők adatait

Két ártó szándékú, MI-alapú kódsegéd bukkant fel a Visual Studio Code (VS Code) Marketplace-en, amelyek összesen másfél millió alkalommal kerültek telepítésre, és titokban Kínába szivárogtatták ki a fejlesztők adatait...

MA 11:19

Az App Store keresését elárasztják az újabb reklámok

🔍 Március 3-tól az Apple tovább növeli a hirdetések számát az App Store keresési találatai között...

MA 11:02

Az igazság ára: Miért érezzük, hogy visszaélnek velünk?

Ha egy háztartásban, munkahelyen vagy közösségben fel kell osztani a feladatokat, az igazságtalanság érzése szinte elkerülhetetlen...

MA 10:57

Az MI-vel chatelő tiniknek mostantól jár a pihenő

A Meta ideiglenesen leállítja a tinédzserek hozzáférését MI-karaktereihez, miközben egy új, jobb felhasználói élményt nyújtó verziót fejleszt...

MA 10:49

A szélsőséges téli viharok kaotikus tudománya

❄ Az Egyesült Államokat szokatlanul erős, életveszélyes hideghullám éri el napokon belül...

MA 10:33

Az Ethereum mindent kockára tesz a kvantumfenyegetés ellen

Az Ethereum Foundation (EF) mostantól első számú stratégiai célnak tekinti a kvantumszámítógépek elleni védelmet, és ehhez külön posztkvantum-csapatot hozott létre Thomas Coratger vezetésével, Emile, kriptográfiai szakértő, támogatásával...

MA 10:27

Az internet megőrült: brutális BGP útvonal-szivárgás bénította a hálózatot

💥 Felmerül a kérdés, hogy mennyire lehetünk biztonságban, amikor a globális internet-infrastruktúra egyetlen rosszul konfigurált router miatt szinte percek alatt megbénulhat...

MA 10:18

Az orosz VPN-vadászat új fokozatba kapcsol: kemény év jön

Oroszország intenzíven törekszik arra, hogy lezárja az internetét a külvilág elől...