2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 14:03

A cambridge-i áttörés: fény forradalmasítja a gyógyszermódosítást

💡 Egy váratlan laborhiba hozta meg azt a forradalmi áttörést, amelynek köszönhetően fény segítségével lehet jelentősen egyszerűsíteni a gyógyszermolekulák átalakítását a fejlesztés késői szakaszában...

MA 13:45

A szójáték, amit most mindenkinek ki kell próbálnia – Josh Wardle-től

Szevasztok, szórajongók! Vége a Wordle-monopóliumnak, mert Josh Wardle, aki világszerte megbabonázott minket a kis színes négyzetekkel, most megint szintet lépett...

MA 13:34

Az elektromos pickup, amiért megőrül a világ

🚗 Régi Ford pickup, új élet: belül már nem zakatol a klasszikus V8-as motor, helyette egy Tesla-alapú akkumulátorcsomag tölti meg energiával a veterán platós járgányt...

MA 13:23

A Meta újra felkavarja a hírvilágot – indul a nemzetközi hírözön?

📰 A Meta újabb lépéssel próbálja fokozni az aktuális világhírekhez való hozzáférést – ehhez most komoly nemzetközi partnerségeket kötött kiadókkal...

MA 12:03

Az amerikai jólét átrendeződik: hol fialhat most a pénz?

A vállalatok hosszú távú sikerét ma már nem pusztán az határozza meg, milyen tehetségeket tudnak magukhoz vonzani, vagy mennyi pénzzel rendelkeznek, hanem hogy hol helyezik el működésüket, hogyan választják meg beszállítói láncaikat, illetve mely területeken ruháznak be...

MA 11:46

A hordozható monitorok olcsó királya? KYY K3 teszt

💻 A hordozható monitorok egyre elterjedtebbek, és manapság bőven válogathat mindenki a különböző modellek közül...

MA 11:23

Az Outlook megint bakizik: hibák, félmegoldások, bosszús felhasználók

🙁 A klasszikus Outlook asztali kliensben egyre több szinkronizációs és kapcsolódási probléma bosszantja a felhasználókat...

MA 11:12

Az egyetlen héliumforrás bedőlt, vészüzembe kapcsol a chipgyártás

Az iráni dróntámadások után Katar leállította a héliumexportot, ami nagyjából a világ ellátásának 30%-át üti ki...

MA 11:02

Az öt legnagyobb hiba, amit szénanáthaszezonban a légtisztítóval elkövethetsz

Tavasszal rengetegen szenvednek a szénanáthától, a pollenek okozta allergiás tünetektől pedig sokan próbálnak menekülni otthoni légtisztítóval...

MA 10:57

A Himax titka, ami felborítja a tech-világ erőviszonyait

A Himax részvényei csütörtökön berobbantak, és a vállalat helyzete egy csapásra megváltozott: az árfolyam több mint 16%-ot ugrott, 3 890 Ft-ra (10,63 USD) emelkedve...

MA 10:50

Az államok visszavágnak: újraindul a Live Nation elleni per

Az amerikai államok nagy része továbbra is harcol a Live Nation és a Ticketmaster ellen, amelyeket a koncertipar monopolhelyzetével vádolnak...

MA 10:45

Az új adókedvezmény felforgatja a szeniorok adózását

💸 2025 jelentős változásokat hoz a 65 év feletti amerikaiak adózásában. Egy új adókedvezménynek köszönhetően több idős ember csökkentheti adóalapját, így az éves elszámoláskor kevesebb adót kell fizetnie...

MA 10:29

Az MI már interaktív diagramokra is képes – tényleg?

A gépi tanulás sötét vizein evezve is egyértelmű, hogy a vizuális ábrázolás ereje most új szintre lépett...

MA 10:22

Az idegenek köztünk élnek? Spielberg szerint nem kizárt

👽 Steven Spielberg újabb meghökkentő kijelentést tett: komolyan gyanítja, hogy nem vagyunk egyedül a Földön...

MA 10:08

Az XRP hódít, de a token ára tovább zuhan

📈 Az XRP Ledger forgalma történelmi csúcsokat dönt, de a token árfolyama mélyrepülésben van...

MA 10:02

A brit betegek bizalmas adatai nyilvánosságra kerültek

Nagy-Britannia egyik legnagyobb orvosi kutatási adatbázisa, a UK Biobank, jelentős adatvédelmi botránnyal néz szembe: kutatók tucatnyi alkalommal szivárogtattak ki bizalmas egészségügyi adatokat az interneten...

MA 09:57

Az Adobe 27 milliárdot fizet a trükkös lemondásokért

Érdemes megvizsgálni, miként vált az Adobe előfizetési rendszere kellemetlenné a felhasználóknak: az amerikai igazságügyi minisztérium (DOJ) és a Szövetségi Kereskedelmi Bizottság (FTC) 2024-ben pert indítottak a cég ellen, mivel szerintük szándékosan bonyolulttá tették az előfizetés lemondását...

MA 09:51

A mikroplasztikok eltömíthetik az emberi immunrendszert

A kutatások egyre több bizonyítékot szolgáltatnak arra, hogy a szervezetben felgyülemlő mikroplasztikok súlyosan befolyásolhatják az immunrendszer működését...

MA 09:37

A növényekben rejtőző, 400 millió éves DNS-kapcsolók titkai

A tér mélyének felfedezése legalább annyira izgalmas a tudósok számára, mint az időé...

MA 09:22

Az AI-botok kicsinálták két hónap alatt az új Digget – jön a harmadik

🚀 Csalódott újrakezdők és egy, az AI-botokkal szemben teljesen tehetetlen csapat – a Digg Reddit-szerű újraindítása mindössze két hónapot bírt ki, mielőtt bezárták a platformot...

MA 09:16

Az MI sakkban ász, de a Nimben csúnyán leszerepel

🎲 Bár a Google DeepMind Alpha-sorozatának MI-jei szenzációs teljesítményt nyújtanak sakktáblán vagy Go-ban, meglepően egyszerű játékokban, például a Nimben hajmeresztő hibákat vétenek...

MA 09:10

Az MI-t már nem a bitek, hanem a wattok fékezik

⚡ Az elmúlt évtizedekben a mesterséges intelligencia fejlődését a lassú, drága számítógépek gátolták, ám ez az akadály mára szinte teljesen eltűnt...

MA 09:01

Az újabb kibertámadás sem törte meg a lengyel atomkutatást

🛠 Fontos kérdés, hogy mennyire biztonságosak a legfontosabb tudományos infrastruktúrák a folyamatosan növekvő kibertámadások korában...

MA 08:57

Az OpenAI Sora‑videókkal turbózná fel a ChatGPT-t

Ilyen eset például, amikor az OpenAI a Sora videógeneráló modelljét beépítené a ChatGPT-be...

MA 08:43

Az Xbox nagyot lép: érkezik a Copilot MI-asszisztens

Végre valami igazán menővel készül az Xbox: a Copilot nevű mesterségesintelligencia-asszisztens év végéig megérkezik a jelenlegi Xbox-konzolokra...

MA 08:36

A bélben termelt bakteriális szerotonin áll az IBS mögött?

🔨 Az irritábilis bél szindróma (IBS) kellemetlen, sokakat érintő emésztési rendellenesség, amely gyakrabban jelentkezik nőknél...

MA 08:29

Az FBI lecsapott: vírust terjesztő Steam-játékokat buktattak le

🕵 Az elmúlt két évben több ártalmas játék is felkerült a Steam platformra, amelyek titokban vírusokat telepítettek a gyanútlan játékosok gépeire...

MA 08:22

Az új Pokémon-őrület már a Garmin órákat is meghódítja

🚀 Lényeges újdonság, hogy a Garmin-felhasználók mostantól két teljesen új Pokémon Sleep óralapot tölthetnek le ingyenesen, ráadásul a mindennapi alvásfigyelés is játékosabbá válik...

MA 08:15

Az ókori harcos gyerekek titka: bronzövek a sírok mélyén

Dél-Olaszországban, Pontecagnano egykori dohánygyárának helyén 34 ókori sírt fedeztek fel, amelyek között két különös gyermeknyughely is feltűnt: a 2 500 éves sírokban két, 5–10 éves gyermeket felnőtt férfi harcosokra jellemző, nagy bronzövekkel temettek el...