Az MI titkos szövetségese: a Common Crawl és a fizetős cikkek
A Common Crawl nevű nonprofit szervezet már több mint tíz éve milliárdnyi weboldalt gyűjt össze, hogy hatalmas internetarchívumot hozzon létre tudományos kutatások számára. Az utóbbi években azonban ez az adatbázis egyre vitatottabb célokat szolgál: olyan MI-fejlesztők, mint az OpenAI, a Google, az Anthropic, az Nvidia, a Meta és az Amazon használják modelljeik betanításához.
Fizetős cikkek titkos hasznosítása
A Common Crawl nemcsak a nyilvános internetet menti le, hanem a nagy hírportálokról származó, fizetőfal mögé rejtett cikkeket is, amelyekhez normális esetben csak előfizetéssel lehet hozzáférni. Ezekhez a tartalmakhoz a webes lementő egy programozási trükk segítségével jut hozzá: letölti a teljes szöveget, mielőtt az oldal ténylegesen lezárná azt az előfizetők számára. Így az MI-fejlesztők ingyen juthatnak hozzá a minőségi újságíráshoz, majd ezeket felhasználva készítenek híreket összegző vagy parafrazáló modelleket, amelyekkel végső soron épp a szerzőktől és kiadóktól vesznek el olvasókat és bevételeket.
Kereken tagadják a vádakat
A Common Crawl hivatalosan azt állítja, hogy csak szabadon elérhető tartalmakat ment le, nem mászik át fizetőfalakon, és készséggel eltávolít bármilyen tartalmat, ha a kiadók ezt kérik tőle. Ugyanakkor a gyakorlatban ez nem igaz: a letöltött fizetős cikkek mind a mai napig megjelennek MI-modellek tanítóanyagában, annak ellenére, hogy több kiadó kifejezetten kérte eltávolításukat.
Az alapítvány vezetője, Rich Skrenta szerint ha valami az interneten van, akkor bárki hozzáférhet – szerinte az MI-modelleknek is joguk van olvasni, mint bárki másnak. Véleményét azzal védte, hogy a kiadók is nyilvánossá tették anyagaikat azon az áron, hogy az MI-robotok is elolvashatják azokat. Eközben a Common Crawl botja, a CCBot ma már a világ első 1000 leglátogatottabb oldalát is rendszeresen feltérképezi, a háttérben pedig tovább pumpálja a minőségi, gyakran fizetős tartalmat az MI-fejlesztőknek. Az MI-modellek elképesztő fejlődése nagyban köszönhető a Common Crawl archívumának – a GPT-3-at például főleg ezekből az adatokból fejlesztették, ami 2022-ben végül a ChatGPT (Csevegő MI) alapját is adta.
Mac számítógépeket vett célba egy új, kifejezetten alattomos vírus, amely hivatalos Apple-összetevőket és frissítéseket imitál, hogy áldozatait megtévessze...
🐱 950 éve temették el azt a házi dingót, amelyet az ősi Barkindji nép tagjai nemcsak elhantoltak, hanem fél évezreden át is tápláltak – legalábbis így értelmezhető az Ausztráliában, a Darling folyó partján most feltárt lelet...
Egy friss vizsgálat során kiderült, hogy Kr. u. 79-ben, a Vezúv kitörése idején Pompejiben elhunyt férfi orvosi felszerelést vitt magával menekülés közben...
💍 Bár az Oura Ring 4 nemrég jelent meg, és máris az egyik legjobb fitneszkövetőként tartják számon, még mindig akadnak területek, ahol tovább tudna fejlődni...
🔗 Ebből következően fontos megérteni, hogy a vállalatok jövője nem azon fog múlni, ki vezeti be a legújabb, trendinek számító platformot, hanem azon, mennyire jól tudják egymáshoz kapcsolni meglévő technológiáikat és partnereiket...
💡 Az elmúlt másfél hónapban egymás után négy, ellátási láncot célzó támadás érte az MI-ipar legnagyobb szereplőit, köztük az OpenAI-t, az Anthropicot és a Metát...
🍊 Ez a jelenség jól illusztrálható azzal, hogy a kutatók egy jelentős spanyol vizsgálatban kimutatták: egy továbbfejlesztett mediterrán diéta – szerény kalóriamegszorítással, rendszeres testmozgással és életmódtámogatással kiegészítve – 31%-kal csökkentheti a 2-es típusú cukorbetegség kialakulásának esélyét...
Taylor Kiesel három éve nem tudta átaludni az éjszakát. Torkaszakadtából kiáltva riad fel, pánikban – mégsem adja fel: gyerekkora óta gyűjtött hüllőkkel veszi körül magát, mentett állatoknak ad otthont, így próbálja átalakítani dühét és szomorúságát valami értelmessé...
😰 Sony egyre szűkülő világa sok játékosnak okoz csalódást. Régen igazi menedék volt a PlayStation a rajongóknak, ma viszont egyre kevésbé ismerős az egész...
Az Amerikai Egyesült Államokban évek óta nem látott magasságba ugrott a kullancscsípések száma, ennek következtében idén szinte minden eddiginél többen jelennek meg a sürgősségi osztályokon...
Fizetős iOS appok és játékok, amik ingyenesek a mai napon. ContactVault Pro (iPhone/iPad)A ContactVault egy olyan korszerű névjegymentő alkalmazás, amely a személyes adatok védelmét helyezi előtérbe...
🧛 A Subnautica 2 világában az Axum baktériumkultúra az egyik legnehezebben hozzáférhető alapanyag, pedig elengedhetetlen, ha Metal Farmot szeretnél építeni...
A Tokiói Egyetem kutatói egy egészen új típusú chipet fejlesztettek, amely az információkat a szokásos elektromos áram helyett az elektronok mágneses tulajdonságait felhasználva kezeli...
Észak-Laosz titokzatos Korsók Mezején régészek végre egyértelmű választ adtak egy évtizedes rejtélyre: a gigantikus, 1200 éves kőedények valóban temetkezési célt szolgáltak...
Különösen említést érdemel, hogy az Ebola-járvány a Kongói Demokratikus Köztársaságban már több mint 100 halálos áldozatot követelt, miközben a feltételezett esetek száma meghaladja a 390-et...
A Steam végre hivatalosan is nevet adott annak a játékműfajnak, amely a Vampire Survivors elsöprő sikerével az utóbbi évek egyik legnépszerűbb PC-irányzata lett...