Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 17:03

Az időbeli antiparitás felforgathatja az energiairányítás szabályait

A hullámmozgás, amely hangot, fényt vagy hőt közvetít különböző közegeken keresztül, régóta foglalkoztatja a fizikusokat, hiszen kulcsfontosságú számos modern technológiánál...

MA 16:50

Az IPO-láz visszatér, de most óvatosan vásárolj

A tőzsdei bevezetési hullám újra itt van, a nagybefektetők fantáziáját 2026-ban olyan cégek mozgatják meg, mint a SpaceX vagy az OpenAI...

MA 16:34

Az utolsó esély: vészesen közeleg a negyedéves adóhatáridő!

⚠ A 2025-ös negyedik negyedévre eső becsült adó befizetésének határideje január 15...

MA 16:18

A Tesla havidíjassá tette az önvezetést

🚘 Ha valaki már belefáradt a folyamatos előfizetésekbe, a Tesla újabb rossz hírrel szolgál...

MA 16:01

Az új kütyük ára az egekben, a minőség zuhan

A hétköznapi eszközök egyre többe kerülnek, miközben minőségük romlik – mindezt részben az MI fejlődésének köszönhetjük...

MA 15:50

A Sony új fülhallgatója forradalmat ígér – hihetünk neki?

🎧 A Sony izgalmas bejelentésre készül január 21-én, amikor egy teljesen új zenei élményt ígér; minden jel szerint egy új, vezeték nélküli LinkBuds Clip fülhallgatóval lep meg minket, és nem a sokak által várt WF-1000XM6-tal (amely valószínűleg később érkezik)...

MA 15:35

Az állami nyugdíjszámlák tarolnak – közeleg az újabb áttörés

💰 Az amerikai dolgozók egyre nagyobb összegű megtakarítást halmoznak fel államilag irányított nyugdíjszámlákon keresztül: a 2025 végére kezelt vagyon eléri az 1 011 milliárd forintot (kb...

MA 15:17

A brazil MI-chatbotok betiltása megtorpant

🚫 Hatalmas fordulatot vett a WhatsApp új szabályozása: a vállalat a brazil telefonszámmal rendelkező felhasználóknak továbbra is engedélyezi, hogy különféle MI-chatbotokat használjanak, annak ellenére, hogy a brazil versenyhivatal néhány napja elrendelte a cég addigi tiltó politikájának leállítását...

MA 15:01

Az emberi kreativitásért harcol a Games Workshop: tiltólistán az MI

A Games Workshop, a Warhammer 40 000 (Warhammer 40,000) és a Sigmar kora (Age of Sigmar) hadijátékok híres gyártója szigorúan megtiltotta alkalmazottainak, hogy MI-t használjanak tartalomkészítéshez vagy tervezéshez...

MA 14:49

Az MI padlóra küldte a RedVDS bűnbandát

🔫 A Microsoft sikeresen megbénította a RedVDS-t, egy hatalmas kibercsalásra épülő platformot, amely eddig csak az Egyesült Államokban 40 millió dollárnyi (kb...

MA 14:33

A svéd egészségőrületért megőrül egész Amerika

Daniel Ek, a Spotify alapítója és üzlettársa, Hjalmar Nilsonne újabb nagy dobásra készül: egészségügyi startupjuk, a Neko Health New Yorkba terjeszkedik, miután Európában már jelentős sikereket értek el...

MA 14:17

Az éhező galaxis, amit saját fekete lyuka falt fel

Egy különös, ősi galaxis, a GS-10578 – becenevén Pablo galaxisa (Pablo’s Galaxy) – sorsa olyannyira szokatlan, hogy még a csillagászokat is meglepte...

MA 14:02

Az új Forza Horizon 6 májusban jön – tényleg Japánban játszódik?

Rejtélyes hirdetés tűnt fel néhány játékosnál a Forza Horizon 5-ben, amely májusi premiert és érdekes újdonságokat sejtet a régóta várt Forza Horizon 6 esetében...

MA 13:50

Az új Raspberry Pi AI HAT: 8 GB RAM sem teszi MI-mágussá

🤔 A legújabb Raspberry Pi AI HAT egy Hailo 10H processzorral és 8 GB RAM-mal érkezett, helyi MI-modellek futtatásához...

MA 13:33

Lehull a lepel az újszülöttek rejtett cukorbetegségéről

🧠 A tudósok egy eddig ismeretlen, újszülötteket érintő cukorbetegség egyik típusát azonosították, amelyet egyetlen gén hibája okoz...

MA 13:18

Az új Gemini: a személyre szabott MI kora most kezdődik

💡 Ilyen eset például, amikor egyszerűen csak egy autógumi cseréjéhez keresel információt, és nem akarsz a parkolóig rohangálni a rendszámért vagy a pontos gumiméretért, mert éppen sorban állsz...

MA 13:03

A nyílt forrású MI már az infografikákban is veri a Google-t

📊 2026 elején az MI két legfontosabb fejleménye a felhasználók számának gyors növekedése, illetve a lenyűgöző új képgenerátor modellek megjelenése, amelyek képesek bonyolult, szövegközpontú képeket – például infografikákat, prezentációkat vagy műszaki ábrákat – gyorsan és pontosan előállítani...

MA 12:49

Az új Galaxy S26 Plus kijelzője csúnyán leszerepel

A Samsung hamarosan megkezdi a Galaxy S26 Plus tömeggyártását, és a hónap végén már sor kerül a hivatalos bemutatóra...

MA 12:34

A kínai vas az MI trónjára tör: a Huawei nagy dobása

🧬 A kínai Zhipu AI (Z.ai) bejelentette, hogy teljesen kínai, Huawei-hardveren, saját fejlesztésű MI-modellt betanított, ezzel pedig elsőként hozott létre fejlett modellt kizárólag hazai technológiával...