2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 17:39

Az Adobe MI‑asszisztense átírja a Photoshop szabályait

Az Adobe új MI‑asszisztenst jelentett be, amelynek béta verziója mostantól elérhető a Photoshopban, és weben, valamint mobilalkalmazásokban is használható...

MA 17:20

Egy ősi marsi ásvány új korszakot nyithat a Vörös Bolygón

A kutatók egy eddig ismeretlen ásványra bukkantak a Mars felszínén, amely alapjaiban írhatja át a bolygó geológiai történetét...

MA 17:02

Az FDA új engedélye után is késik az áttörés autizmusban

👀 Egy lényeges szempont, hogy az amerikai Élelmiszer- és Gyógyszerügyi Hatóság (FDA) most először hagyta jóvá a szintetikus B9-vitamin, a leucovorin egy új alkalmazását...

MA 14:01

Lehullt a lepel az élesztő miniatűr centroméráinak titkáról

🔬 A centroméra a kromoszómák központi régiója, amely minden élőlényben kulcsszerepet tölt be a sejtosztódás során: biztosítja, hogy a kromoszómák pontosan szétváljanak az utódsejtek között...

MA 13:58

A TikTok marad Kanadában – de csak kemény feltételekkel

😉 Most őszintén, észrevetted már, mennyire imádják a döntéshozók ide-oda ráncigálni a techóriásokat?..

MA 13:39

Az Xbox marad – Nadella megnyugtatja a játékosokat

Az Xbox az elmúlt évtizedekben a videojáték-ipar egyik meghatározó konzolja volt a Nintendo és a PlayStation mellett...

MA 13:20

A Leedsben előkerült föníciai érme titka

🔮 Egy egészen különleges pénzérme bukkant fel Angliában a múlt században: az 1950-es években egy buszsofőr pénztárgépe fogadott be egy bronz érmét, amelyről hamarosan kiderült, hogy több mint 2000 évvel ezelőtt, a mai Spanyolország déli részén verték...

MA 12:01

Az Apple otthoni kijelzője tovább csúszik, Siri még várat magára

Az Apple okosotthon-rajongói régóta várják a Google Nest Hub és az Amazon Echo Show ellenfelét, de ismét csalódniuk kell...

MA 11:58

Már a munkahelyeket is támadja egy veszélyes Teams-csalás

💯 Pénzügyi és egészségügyi szervezetek dolgozóit próbálták átverni kiberbűnözők, akik a Microsoft Teamsen keresztül, magukat IT-munkatársaknak kiadva vették fel velük a kapcsolatot...

MA 11:39

Az új uniós terv megmentheti az egyedi rendszereken futó banki alkalmazásokat

Külön említést érdemel, hogy sokan, akik egyedi ROM-ot vagy Google-mentes Androidot használnak a telefonjukon, szembesülnek azzal, hogy számos banki és pénzügyi alkalmazás egyszerűen nem működik...

MA 11:02

A fiatal vállalkozó, aki forradalmasítja az egészségügyi adminisztrációt

🚀 A Harvardot otthagyó Tim Hwang élete során folyamatosan lavírozott a politika, a közpolitika és a startupok világa között...

MA 10:55

Az X végre lépett: Grok többé nem szerkeszthet bárki fotóit

Az utóbbi napokban feltűnt egy új lehetőség az X közösségi oldalon: immár egyetlen kapcsolóval meg lehet akadályozni, hogy a feltöltött fotókat a Grok chatbot módosítsa...

MA 10:46

Az űrtükrök nappali fényt hozhatnak éjjelre – de milyen áron?

Egy kaliforniai startup, a Reflect Orbital, űrtükrökkel világítaná meg az éjszakai Földet...

MA 10:19

Véget ér a botáradat a Teamsben? Itt a címkézés!

Nincs annál furcsább, mint amikor a megbeszélés várójában hirtelen egy vadidegen, furán elnevezett „résztvevő” tűnik fel – sokszor csak egy bot bújik meg a sorban...

MA 09:55

Az ősszel robbanhat a Siri: jön az Apple okoskijelzője?

Kiszivárgott pletykák szerint az Apple régóta várt okosotthoni kijelzője – a legendás HomePod – végre tényleg közelít a megjelenéshez...

MA 09:47

Az amerikai kormány elárulta az államokat a Ticketmaster-perben

🖤 Jellemző példa erre, hogy amikor a 2026-ban kezdődött per közepén váratlanul megállapodást kötött az amerikai igazságügyi minisztérium (DOJ) a Live Nation/Ticketmaster cégekkel, a 27 amerikai tagállamot és a washingtoni kerületet teljesen meglepte a fordulat...

MA 09:37

Az aszteroida-eltérítés működik: a NASA történelmi áttörést ért el

2022 szeptemberében a NASA DART (Double Asteroid Redirection Test) űrszondája szándékos ütközéssel eltalálta a Dimorphos nevű kisbolygót, amely a Didymos nevű nagyobb aszteroida körül kering...

MA 09:28

A villámgyors evolúció: érző, gondolkodó fehérjék születése

⚡ Az élővilágban az evolúció alakítja a biológiai rendszereket: a változékonyságot mutató DNS, RNS és fehérjék közül azok a sejtek maradnak fenn, amelyek a leghatékonyabban működnek...

MA 09:10

A NASA-val végre élőben nézheted az Artemis II-t

Több mint ötven év után ismét ember léphet a Holdra: hamarosan indul az Artemis II, amely a NASA első emberes holdmissziója lesz 1972 óta...

MA 09:01

Az Nvidia bejelentése feltüzeli a kriptópiacot, kilőnek az AI-tokenek

Az AI-hoz kapcsolódó kriptók szinte felrobbantak, miután a Wired kiszivárogtatta: az Nvidia saját, nyílt forráskódú platformot dob piacra önálló mesterségesintelligencia-ügynökök számára...

MA 08:55

Az MI valósága: brutális tőkeinjekció LeCun új laborjába

Yann LeCun új MI-laborja, az AMI Labs elképesztő, több mint 376 milliárd forintnyi befektetést szerzett 2026 elején, és ezzel 1 260 milliárd forintos értékelést ért el...

MA 08:46

Az Apple nagy dobása: már minden negyedik iPhone Indiában készül

Nem semmi: az Apple mostanra elérte, hogy minden negyedik iPhone Indiában készüljön...

MA 08:37

Az új MacBook Neo-háttérképek már minden Macen: menők vagy cikik?

🖥 Szóval, készülj fel, mert a legújabb, vibráló MacBook Neo-háttérképek mostantól minden Macen elérhetők a macOS Tahoe 26...

MA 08:30

Az iPhone 17E megérkezett: tényleg erre vártunk?

Az Apple újabb iPhone-nal bővítette kínálatát: a 17E az olcsóbb, belépőszintű modell szerepét vállalja 256 GB tárhellyel és MagSafe-támogatással...

MA 08:19

Az éghajlatválság rákapcsolt: itt a következő fokozat

A Föld hőmérséklete az elmúlt évtizedben drámaian gyorsuló ütemben emelkedett, amit a Potsdam Institute for Climate Impact Research (PIK) legfrissebb adatai mutatnak...

MA 08:01

Az Amazon keresztülhúzza a SpaceX egymillió műholdas álmait

🚀 Az Amazon felszólította az amerikai hírközlési hatóságot, az FCC-t, hogy utasítsa el a SpaceX ambiciózus kérelmét: Elon Musk cége egymillió műholdból álló űrbéli adatközpont-hálózatot akar pályára állítani...

MA 07:56

A gyógyszeróriások ostroma: Amerika a világ új gyára?

💉 Felmerül a kérdés, hogy mit lépnek a nagy gyógyszercégek, amikor a vámfenyegetettség árnya lebeg az Egyesült Államok felett...

MA 07:47

Az új Blue Origin részvényopció: Leeresztett lufiból lehet valódi pénz?

🚀 Jeff Bezos 2004-ben indított űripari cége, a Blue Origin, azóta is küzd a profitszerzéssel, noha az utóbbi években látványos üzleti sikereket is elért...

MA 07:37

Az elveszett Arkhimédész-oldal, amely évtizedekig egy múzeumban rejtőzött

Senki sem gondolta volna, hogy egy poros múzeumban bukkan majd fel Arkhimédész egy elveszett kéziratlapja – de hát Franciaországban még ez is megtörténhet!..