Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

kedd 09:44

Az elit tíz: a világ leggazdagabbjai újrarendezve

💰 A decemberi Forbes-lista szerint továbbra is az informatika, a közösségi média és a mesterséges intelligencia uralja a világ leggazdagabb embereinek rangsorát...

MA 16:18

Az űripar nagy dobása: tőzsdére lép a SpaceX

Több mint húsz évvel az alapítása után a SpaceX, amely forradalmasította az űripart, végre tőzsdére készül lépni...

MA 16:02

A mesterséges intelligencia emberibbé teszi a bionikus kezek mozgását

Érdemes megvizsgálni, hogy a bionikus kezek fejlesztése mennyire javítja az amputáltak életminőségét, és milyen szerepet játszik az MI ebben az új hullámban...

MA 15:51

Itt a Shark TurboBlade: tényleg vége a hőháborúnak?

🐟 Ez a jelenség jól illusztrálható azzal, hogy sok háztartásban folyamatos harc folyik a termosztát feletti felügyeletért...

MA 15:34

A legjobb ízületkímélő erősítő gyakorlatok 50 felett: öt bevált tipp

Az életkor előrehaladtával a testünk változik, és gyakran épp akkor kezd nehezebben épülni az izomzat, amikor a legnagyobb szükség lenne rá...

MA 15:17

Az IKEA trükkös töltői mostantól hangulatfényt is adnak

Az IKEA három vadonatúj vezeték nélküli töltővel bővíti kínálatát, amelyek támogatják a Qi 2...

MA 15:01

A Zootropolis 2 rekordidő alatt átlépte az egymilliárdot

Kevesebb mint három hét alatt a Zootropolis 2 (Zootopia 2) már több mint 1 milliárd dollárt, azaz körülbelül 368 milliárd forintot hozott a Disney-nek, rekordgyorsasággal érve el ezt az összeget egy PG-besorolású filmhez képest...

MA 14:49

Az Amazon törli a hibás MI-generált Fallout-összefoglalókat

Az Amazon Prime Video gyorsan eltávolította a Radioaktív kihullás (Fallout) sorozat első évadához készült, MI által generált összefoglalókat, miután azok súlyos hibákat tartalmaztak...

MA 14:34

Az amerikai gazdagság délibábja: Mit ér a nettó vagyon valójában?

Úgy tűnhet, elképesztően gazdagok az amerikaiak, hiszen a 2024-es UBS-jelentés szerint az átlagos nettó vagyon 620 654 dollár, ami több mint 224 millió forintnak felel meg...

MA 14:18

A pénzügyi csalók milliárdokat húznak ki az idősek zsebéből

💰 A 60 év felettiek körében terjedő pénzügyi csalások egyre súlyosabb gondot jelentenek: 2024-ben csak az Egyesült Államokban akár 31 000 milliárd forint (81,5 milliárd USD) kárt is okozhattak az idősebb korosztálynak...

MA 14:03

Az emberiség jövője: megvannak a Global Space Awards győztesei

Érdemes megvizsgálni, hogy Londonban, a Természettudományi Múzeumban megrendezett első Global Space Awards milyen jelentőséggel bír az űripar szempontjából...

MA 13:50

A techóriások sem engedik: gyerekeiknek nem jár szabad netezés

🔒 A legnagyobb techvezetők közül is egyre többen szabályozzák és korlátozzák saját gyerekeik közösségi médiahasználatát...

MA 13:34

Az MI új korszaka: apró ügynökök, okosabb rendszerek

🤖 Az elmúlt évtizedben minden a minél nagyobb MI-modellekről szólt. A kutatók egyre több paramétert illesztettek a rendszerekbe, és ezzel jelentős sikereket értek el, de mára elértük ennek a módszernek a határait: a méret önmagában már kevés újat hoz...

MA 13:17

Az IKEA fánk alakú töltője letarolja a piacot

Az IKEA ismét bővítette megfizethető elektronikai kínálatát: három új, 15 wattos, a Qi2 szabványt támogató vezeték nélküli töltő érkezett...

MA 13:02

A német felnőttek az adaptív problémamegoldás bajnokai

🏆 A legfrissebb PIAAC-felmérés szerint a németországi felnőttek a nemzetközi átlag felett teljesítenek az összetett, új helyzetekben felmerülő problémák megoldásában...

MA 12:49

Az új React-hibák titkokat buktatnak, és DDoS-támadásokat szabadítanak el

⚠ A React Server Components szolgáltatást használók sorra kapják a rossz híreket...

MA 12:33

Az örökre maradó nyom: amit kevesen tudnak a traumás tetoválásról

A hétköznapi tetoválásokkal ellentétben a traumás tetoválások egészen váratlan módon keletkeznek – nem tintával, hanem balesetek vagy apró sérülések során, például egy ceruzaszúrás után...

MA 12:17

Az óriáskrokodilt egy 40 éve lappangó kór ölte meg

🐢 Cassius, a 18 láb (kb. 5,5 méter) hosszú sósvízi krokodil negyven évet töltött fogságban az ausztráliai Marineland Crocodile Parkban, ám tavaly hirtelen elpusztult, mintegy 120 évesen...

MA 12:01

A Google látványos offenzívája a Sci-Hub ellen

Fontos kérdés, hogy mennyire tudják a keresőszolgáltatók meggátolni a szerzői jogot sértő tartalmak elérését...