2025. 04. 03., 14:01

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához

Az OpenAI jogszabályokon felülemelkedve használja az O’Reilly könyveket az MI tanításához
Tim O’Reilly, a neves tech könyvkiadó vezetője azt állítja, hogy az OpenAI engedély nélkül használta fel a kiadó szerzői jogvédelem alatt álló könyveit a legújabb GPT-4o modell betanításához. Mindez annak ellenére történt, hogy a cég már több szerzői jogi per alanya hasonló tevékenységek miatt, bár az OpenAI tagadja a jogsértést.

Rejtett módszerekkel a nyomok után

O’Reilly a “Nem nyilvános adatok szerepe az LLM-ek előképzésében” (Beyond Public Access in LLM Pre-Training Data) című tanulmány társszerzőjeként vizsgálta meg, hogy a GPT-4o felhasznált-e 34 szerzői jogvédelem alatt álló O’Reilly Media könyvet. A kutatók úgynevezett DE-COP teszteket végeztek: feleletválasztós kérdéseket tettek fel, amelyek során a modellnek négy opció közül kellett kiválasztania, melyik szövegrészlet származik eredeti O’Reilly könyvből. Ha a modell helyesen azonosította az eredeti szövegeket, az erősen arra utalt, hogy ezeken a szövegeken tanult.

A tesztek alapján a GPT-4o 82%-os pontossággal ismerte fel az eredeti szövegrészleteket, ami egyértelműen arra utal, hogy valószínűleg a kiadó anyagain képezték ki. A kutatók szerint az OpenAI a hírhedt LibGen adatbázist használhatta, amely mind a 34 tesztelt könyvet tartalmazza – ugyanazt az adatbázist, amelyet korábban a Meta is alkalmazott a Llama modellek betanításához.

 

Érdekes módon a 2022-es GPT-3.5 modell csak alig 50% feletti eredményt ért el, ami arra enged következtetni, hogy “a nem nyilvános adatok szerepe az OpenAI modelljeinek előképzésében jelentősen megnőtt az idők során”. Ugyanakkor a kisebb GPT-4o Mini modell, amely 2024-ben jelent meg, nem tűnik úgy, mintha O’Reilly könyvek alapján tanult volna, vélhetően kisebb paraméterkészlete miatt.

A jogsértő gyakorlat veszélyei

A kutatók figyelmeztetnek: a szerzők megfelelő kompenzálásának hiánya “az egész internet lezülléséhez” vezethet. “Ha az MI-cégek értéket vonnak ki a tartalomkészítők által előállított anyagokból anélkül, hogy méltányosan kompenzálnák az alkotókat, azzal éppen azokat az erőforrásokat merítik ki, amelyektől MI-rendszereik függenek,” érvelnek.

 

Az MI-óriások láthatóan tisztában vannak azzal, hogy nem támaszkodhatnak csak az internetes adatgyűjtésre, ezért licencszerződéseket kötnek kiadókkal és közösségi hálózatokkal. Az OpenAI tavaly szerződést kötött a Reddittel és a Time magazinnal is archívumaik felhasználására. Ugyanakkor a cég nemrég arra kérte az amerikai kormányt, hogy lazítson a szerzői jogi korlátozásokon, azzal érvelve, hogy a merev szabályok elnyomják az innovációt és a befektetéseket.

 

Miközben az MI-modellek készítői a korlátlan hozzáférésért harcolnak, mások akadályokat állítanak a szerzői jogok védelmében. A Cloudflare nemrég bemutatta AI Labyrinth nevű bot-ellenes MI-jét, amely a robots.txt utasításokat figyelmen kívül hagyó adatgyűjtőket egy hamis oldalakból álló labirintusba csalja, pazarolva idejüket és számítási erőforrásaikat.

 

Az éppen 40 milliárd dolláros finanszírozást szerző OpenAI egyelőre nem reagált a megkeresésekre.

2025, adminboss, go.theregister.com alapján

Legfrissebb posztok

MA 13:01

Az ether-vásárlási roham utoléri a Bitcoin nagyágyúit

💸 Senki sem várta volna, hogy az üzleti világ két legnagyobb kriptovásárlója ennyire közel kerüljön egymáshoz...

MA 12:56

Az új visszatekerés: senki nem marad le a 8020-as irányelvről

Külön említést érdemel, hogy a Supermassive Games fejlesztői végre meghallották a rajongók egyik legnagyobb kívánságát: az Irányelv 8020-ban (Directive 8020) bevezetik a játék közbeni visszatekerés lehetőségét...

MA 12:44

A döbbenetes bitcoin-vagyon, amivel Jack Dorsey cége zsonglőrködik

💸 Jack Dorsey, a Twitter egykori vezére által alapított Block igencsak bespájzolt bitcoint: az év első negyedévében 114 új bitcoint vásárolt, amivel a vállalati kasszában már majdnem 9 000 BTC-t, vagyis körülbelül 264 milliárd forintot tart...

MA 12:34

A túlzásba vitt automatizálás megöli az értékesítést

Külön említést érdemel, hogy az értékesítési csapatok ma minden korábbinál nagyobb nyomás alatt állnak...

MA 12:24

Az MI-láz berobban: a Netcompany új korszakot nyit az INEOS Cyclingnél

Az INEOS Cycling öt évre szóló együttműködést kötött a dán Netcompanyval, hogy forradalmasítsák a profi országúti kerékpározást MI-alapú technológiával...

MA 10:37

Az új Logitech G512 X: a gamer billentyűzet, amire vártunk?

A Logitech G512 X bizonyítja, milyen sokat számítanak az okos tervezési megoldások és az innováció a gamer billentyűzetek piacán...

MA 10:29

A mesterséges intelligencia feltámasztja a halott projekteket

Érdekes felvetés, hogy a hosszú hétvégék után az e-mail-fiókunkba belépve rendre találkozunk olyan projektekkel, amelyek sem előre nem haladtak, sem nem törölték őket...

MA 10:22

Jön az újabb japán kamatemelés? Szárnyal a jen, esik a bitcoin

💰 A japán jegybank keddi döntése nyomán egyre erősebbek a várakozások, hogy már júniusban nőhetnek a hitelfelvételi költségek...

MA 10:14

Az Ondo Finance új dimenzióba repíti a tokenizált részvényeket

Az Ondo Finance forradalmasítja a tokenizált részvényeket és ETF-eket azzal, hogy bevezeti a meghatalmazotti szavazás lehetőségét...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 4/28

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     Between Dates Calendar Math (iPhone/iPad)A Between Days alkalmazás lehetővé teszi, hogy könnyedén megtudd, hány nap választ el két dátumot egymástól...

MA 08:57

Az MI-keresők rejtett hibái: veszélyben a vállalati rendszerek

⚠ Úgy tűnik, hogy azok a vállalati fejlesztőcsapatok, amelyek gondosan finomhangolják a RAG (Retrieval-Augmented Generation) beágyazó modelljeiket, ezzel jelentősen, akár 40%-kal is ronthatják a visszakeresés pontosságát...

MA 08:50

Az áttörés: Végre repedés nélkül fagyaszthatók a beültethető szervek

A szervátültetés sokáig versenyt futott az idővel: a donorszervek eltarthatósága szűk keresztmetszetet jelent, gyakran csak órákban mérhető...

MA 08:43

Az XRP mélyrepül: az eladók veszik át az irányítást

📉 Tipikus eset, amikor egy régóta várt támaszpont hirtelen enged el: az XRP éppen most esett 3%-ot, erős forgalom mellett 420 forint (1,40 USD) alá szakadt, és ezzel utat nyitott a további lejtmenetnek...

MA 08:36

A drága olaj és az MI fékezi a bitcoint, a Fed tétlen

📈 Kissé leült a bitcoin: 3 százalékos mínuszban, 28,6 millió forint környékén ingadozik, miközben a befektetők kivárnak a sűrű amerikai makrogazdasági hét előtt...

MA 08:29

Az olajár száguld, a kriptók mélyrepülésben

Kedd reggelre jelentős esést produkált a kriptopiac: a Bitcoin értéke 76 923 dollárra (kb...

MA 08:22

Az amerikai Bitcoin-őrület véget ér?

💸 A Bitcoin gyors és látványos emelkedése után megállt a lendület, a kriptovaluta árfolyama pedig egyre több gyengeségre utaló jelet mutat...

MA 08:15

A két kilométer mélyen rejtőző aranygömb meglepő titka

🪙 Több mint két kilométer mélységben találtak rá a titokzatos arany gömbre az Alaszkai-öbölben, ami éveken át lázban tartotta a tudósokat és a laikusokat egyaránt...

MA 08:01

Az automatizált iPaaS forradalmasítja az ellátási láncokat

⚡ Az ellátási láncokban a hagyományos integrációs modellek már nem bírják a terhelést...

MA 07:56

A MARA Alapítvány harcba száll a Bitcoin jövőjéért

💸 Megemlíthető, hogy Las Vegasban, a Bitcoin Conference rendezvényén Fred Thiel, a MARA Holdings vezérigazgatója bejelentette a MARA Foundation megalapítását, amelynek célja a Bitcoin-hálózat hosszú távú biztonságának és alkalmazkodóképességének garantálása...

MA 07:49

Az elfojtott stressz alattomosan kikezdi az emlékezetet

🤯 Az idősebb kínai amerikaiak körében végzett kutatás szerint azok a stresszfajták, amelyeket az emberek magukba fojtanak, jelentősen növelhetik a memóriazavar kialakulásának esélyét...

MA 07:43

Az egyetemisták kozmikus rádióval űzik a sötét anyagot

📺 Érdemes megérteni, hogy egyetemi hallgatók is képesek lehetnek valódi áttöréseket elérni a modern fizika legnagyobb rejtélyei között számon tartott sötét anyag keresésében – méghozzá óriási nemzetközi projektek, hatalmas pénzekkel támogatott laboratóriumai nélkül is...

MA 07:37

A megfizethető MI forradalma: a Xiaomi MiMo V2.5 tarol

🚀 A Xiaomi neve eddig leginkább okostelefonjaival és elektromos autóival fonódott össze, de most a kínai vállalat olyan nyílt forráskódú, nagy teljesítményű nyelvi MI-modellekkel rukkolt elő, amelyek hatékonyságukkal és árukkal is felforgatják a piacot...

MA 07:29

Az apró emlős, amely túlélte a dínóvészt – ma ő az úr

🐮 Mintegy 66 millió évvel ezelőtt egy katasztrofális esemény eltörölte a Föld élővilágának háromnegyedét, köztük a dinoszauruszokat is...

MA 07:22

Az MI áttörése: Jön az olcsóbb otthoni fűtés?

Érdekes felvetés, hogy a japán kutatók újfajta MI-eszköze néhány másodperc alatt képes ultrahatékony hőelektromos generátorokat tervezni...

MA 07:15

Az olajárugrás és a geopolitikai feszültség megtépázta a Bitcoint

💰 Érdemes megvizsgálni, hogy a Bitcoin ára hétfőn 76 600 dollárig esett vissza, miután az éjjeli, közel 80 000 dolláros magasságát nem tudta tartani...

MA 07:08

Az új Moomin-játék: A tél, amely átölel

❄ Történetünk a kedves, ismerős havas tájakkal kezdődik, ahol Moomintroll véletlenül felébred téli álmából – jóval korábban, mint a többiek...

MA 07:01

Az OpenAI nagy dobása: együtt a szuperintelligens MI-vel?

🚀 Különösen igaz ez akkor, ha szinte naponta jelenik meg újabb mérföldkő a mesterséges intelligencia (MI) fejlődésében...

MA 06:56

Az Aave mentőakciója: százmilliók a DeFi megmentésére kriptolopás után

🛡 Az elmúlt héten a decentralizált pénzügyi világban példátlan összefogás indult, miután egy hatalmas hackelés súlyos károkat okozott az Aave felhasználóinak...

MA 06:50

Musk kontra Altman: az MI-gigászok csatája a bíróságon

Elon Musk és Sam Altman, a MI világának két meghatározó alakja, hamarosan szemtől szemben állnak egymással egy rendkívül nagy tétre menő perben az oaklandi szövetségi bíróságon...