Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 13:19

A hőst nem a szupererő teszi – Hősakadémia nagy finálé

Érdekes felvetés, hogy a Hősakadémia (My Hero Academia) az elmúlt évtized legmerészebb és egyben leginkább alulértékelt sónen animéként vonult be a köztudatba...

MA 13:04

A 65 colos tévé, ami sötét és világos szobában is nyerő

A hatalmas, 65 hüvelykesnél is nagyobb tévék választása valódi kihívás – nemcsak a készülékek beüzemelése adja meg az alaphangulatot, hanem a végtelen számú technikai adat miatt is könnyű elveszni...

MA 12:33

Az újévi fogadalmak ideje lejárt – jöhet a szerencsekártya!

A január minden évben tiszta lappal kecsegtet. Elengedheted a múlt hibáit, és úgy érezheted, hogy idén végre új ember leszel, új szokásokkal és jó szándékkal...

MA 12:18

Az új HP ZBook X G1i: a profik hordozható erőműve

Érdemes megvizsgálni, hogy a HP ZBook X G1i mennyire hozza elérhető közelségbe az asztali munkaállomások erejét akár egy hátizsákban is...

MA 12:02

A mesterséges intelligencia már 50 ezret küldött utcára 2025-ben

💀 A 2025-ös évben az elbocsátások mindennapossá váltak az amerikai munkaerőpiacon, és a mesterséges intelligencia (MI) egyre gyakoribb indokként jelent meg az állások megszűnése során...

MA 11:50

Az Elf leckéje: így őröl fel minket a megélhetés

Felmerül a kérdés, hogy mennyibe kerülne ma Buddy, a Mi a manó?..

MA 11:34

Az MI-botrány az Indie Game Awards-on: elvették a díjakat a Clair Obscurtól

A Sandfall Interactive nagy sikerű, kritikusok által elismert RPG-je, a Clair-obscur: 33...

MA 11:02

Az amerikai alap kiszáll a Sportradarból: miért most?

🏆 A kaliforniai székhelyű Global IMC jelentősen csökkentette részesedését a Sportradar Group AG-ben, több mint 7 millió dollár (kb...

MA 10:57

Végleg vége az olcsó Steam Deck korszakának

💸 A Steam Deck-rajongók számára rossz hír, hogy a Valve beszüntette az utolsó megfizethető, LCD-s modellt is...

MA 10:39

Az év rejtett gyöngyszemei: játékok, amikről lemaradtál

💎 2025-ben a videojáték-ipar elképesztő mennyiségű címet ontott magából, de szinte lehetetlen mindenre odafigyelni...

MA 10:32

Az inka kőcsodák titkai: így emelték fel a birodalmat

Az inka civilizáció építőművészetét évszázadok óta rejtély övezi. A mai Peru, Ecuador, Bolívia, Chile és Argentína területén elterülő, több mint tízmillió lakosú inka birodalom hivatalosan az 1500-as években bekövetkezett spanyol hódításig uralta a térséget...

MA 10:17

A 2025-ös társasjátékrobbanás legizgalmasabb újdonságai

🎲 A társasjáték-rajongók számára 2025 a nehézségek ellenére is kiemelkedő év lett – a vámok alaposan felforgatták a piacot, de így is rengeteg kiváló cím jelent meg...

MA 09:43

A Switch 2 olcsóbb kazettáinak titka kiszivárgott?

🔑 A Nintendo következő konzolja, a Switch 2 várhatóan olcsóbb fizikai játékkazettákat kaphat, legalábbis erre utalt egy korai, idő előtt törölt bejegyzés egy retro játékokkal foglalkozó kiadótól, az ININ Games-től...

MA 09:37

Az új Dogpile: Tetris, Balatro és kiskutyák őrült találkája

A Dogpile egy meglepően friss játék, amely ötvözi a pakliépítős stratégiát, a match-3 mechanikát, a roguelike hangulatot és persze rengeteg aranyos kutyát...

MA 09:22

Az okos kosár titka: így lesz egészséges a bevásárlás

Az egészséges táplálkozás egyik kulcsa, hogy tudatosan vásárolj az élelmiszerboltban. Egyre többen esküsznek arra a bevált módszerre, hogy elsősorban a bolt peremén keresd az alapanyagokat...

MA 09:16

Az Apple nyit, de vasmarokkal fogja az iPhone-okat Japánban

Az Apple jelentős módosításokat jelentett be a japán iOS-rendszerben, hogy megfeleljen a Mobil Szoftver Versenytörvénynek (MSCA)...

MA 09:08

A mesterséges intelligenciás autók elárasztották San Franciscót – káosz a sötétben

🚗 San Franciscót december 20-án hatalmas áramszünet bénította meg, aminek következtében a Waymo önvezető autói egyszerűen leálltak az utakon...

MA 09:02

Az Ozempic-láz kincsvadászata: a turkálás új aranykora

💎 Tíz éven át vadásztam arra a kabátra, amilyet Winona Ryder visel a Furcsa dolgok (Stranger Things) első évadában...

MA 08:59

Az igazi távcsőpárbaj: melyik Celestron 10×42 a nyerő?

A hobbifelfedezők és természetjárók szinte mind találkoztak már a 10×42-es távcsövekkel...