2025. 08. 03., 21:26

Az MI titkos adatzabálása: személyes adataink milliói veszélyben

Az MI titkos adatzabálása: személyes adataink milliói veszélyben
Óriási mennyiségű érzékeny, személyazonosításra alkalmas adat került be az egyik legnagyobb, képgeneráló MI-modellek tanítására használt adatbázisba, a DataComp CommonPool nevű nyílt forráskódú készletbe. Bár a kutatók csak a teljes állomány 0,1 százalékát vizsgálták át, ezalatt is több ezer arccal és személyes dokumentummal, például útlevéllel, bankkártyával, születési anyakönyvi kivonattal és önéletrajzzal találkoztak. Arra következtetnek, hogy a teljes, 12,8 milliárd képet és szöveget tartalmazó állományban akár több százmillió ilyen adatdarab is lehet.

Személyes okmányok nyilvánosan

A vizsgálat során a kutatók több ezer érvényes személyi igazolványtípust (útlevelet, jogosítványt, bankkártyát, születési bizonyítványt) azonosítottak, emellett 800-nál is több, állásjelentkezéshez kapcsolódó dokumentumot (önéletrajzot vagy motivációs levelet) találtak, amelyek valós személyekhez köthetők a LinkedIn és más internetes források alapján. Az önéletrajzok egy része érzékeny adatokat tartalmaz, például fogyatékosságot, háttérellenőrzés eredményét, hozzátartozók születési idejét és helyét, rasszt, de gyakran előfordul lakcím, kapcsolattartó személyek adatai, kormányzati azonosítók és arcképek is.

Fontos megjegyezni, hogy a kutatók minden azonosítható információt anonimizáltak, az arcokat kitakarták, a szövegeket átírták, hogy megelőzzék a visszaélés lehetőségét.

Gigantikus adatgyűjtés, kevés kontroll

A DataComp CommonPool 2023-as indulásakor a maga 12,8 milliárd párosított kép-szöveg példájával a legnagyobb nyilvánosan elérhető ilyen adatbázisnak számított, amelyet főként generatív MI tanítására használnak. Bár a készítők eredetileg tudományos céllal állították össze, a licenc nem tiltja a kereskedelmi felhasználást sem.

Az adatállományt a LAION-5B utódjaként, azzal azonos módszerrel és forrásból állították össze: a nemzetközi Common Crawl nonprofit szervezet 2014–2022 között végzett webszkenneléseinek eredményeiből. A két nagy adatcsomag így jelentős átfedést mutat, vagyis minden, a DataComp CommonPoolban azonosított személyes adat szinte biztosan megtalálható más, onnan tanított modellekben is, például az Állandó Diffúzió (Stable Diffusion) vagy a Középutazás (Midjourney) algoritmusokban. A CommonPool állományt az elmúlt két évben már több mint kétmilliószor töltötték le, így rengeteg további modell, szoftver és fejlesztés épült rá, amelyek mind továbbörökítik a privát információkat.

A szűrés rémálma: arcok és metaadatok ezrei maradtak bent

A szakértők szerint teljesen lehetetlen teljes körű (és hibátlan) szűrést megvalósítani egy ekkora adatállományban: mindig maradnak benne érzékeny adatok, legyen szó képekről, metaadatokról, szöveges információról vagy arcképekről. Bár a CommonPool kezelői például automatikus arcfelismerő elhomályosítót is alkalmaztak, a kutatók szerint a program így is 800-nál több arcot hagyott figyelmen kívül már az általuk vizsgált kis mintában is. A teljes adatbázisban akár 102 millióra is rúghat a bent maradt arcok száma. Mindezek ellenére nem alkalmaztak olyan automata szűrőket, amelyek például az email-címeket vagy társadalombiztosítási számokat kiszűrték volna.

További problémát jelent, hogy a fotókhoz tartozó képaláírásokban, leírásokban, sőt a képmetaadatokban sokszor még több személyes adat rejtőzik: nevek, pontos lakcímek, sőt, helymeghatározás is gyakran előfordul. A Hugging Face platform ugyan rendelkezik olyan eszközzel, amely elvileg lehetővé teszi az adatok eltávolítását, de ehhez az érintettnek először tudnia kellene arról, hogy szerepel az adatbázisban.


Jog nehezített pályán – törölni, de hogyan?

Ha valaki mégis észreveszi, hogy adata szerepel, könnyen lehet, hogy töröltetni már nem tudja maradandó hatások nélkül. Még ha érvényesíti is adatismereti vagy törlési jogait, technikailag bonyolult a helyzet: ha csak magából az adatbázisból törlik, de a tanított MI-modellekben már benne vannak, akkor a “károkozás” már megtörtént.

Fontos kiemelni, hogy a különböző országok, sőt államok eltérő jogszabályai (mint Európában a GDPR vagy Kaliforniában a CCPA) rendszerszintű védelmet ugyan teremtenek, de ezek csak nagyobb cégekre érvényesek, jellemzően nem vonatkoznak a kisebb, egyetemi kutatásokból kinőtt projektekre, ahogy a DataComp CommonPool példája is mutatja. Sőt, ezeknek a törvényeknek is vannak kiskapui: például a “közérdekűen nyilvános adatok” gyakran kivételt képeznek. Az MI-kutatók eddig általában azon az elven dolgoztak, hogy amint valami kikerül az internetre, az már közadatnak, nem magánadatnak minősül – a mostani kutatások azonban ezt az elvet is megkérdőjelezik.

A beleegyezés illúziója

A DataComp CommonPool 2014 és 2022 közötti webes forrásokra támaszkodik, vagyis bővelkedik olyan fotókban és adatokban, amelyeket a tulajdonosuk még az MI-robbanás (és például a CsevegőGPT [ChatGPT] 2020 utáni megjelenése) előtt töltött fel a netre. Hiába tartotta akkor magát biztonságban valaki, az adat gyakorlatilag bármelyik “adatbányán” keresztül eljuthatott akárhová: sokszor már az sem segít, ha valaki később letörli saját tartalmát. Gyerekek adatai – születési igazolás, útlevél, egészségi státusz – is nagy számban előfordulnak, ráadásul gyakran olyan kontextusban, amelyből eredetileg csak szűk kör láthatta volna.

Mi számít privátnak a digitális világban?

Ebből kifolyólag élesen kérdéses lett, mit tekinthetünk ténylegesen magánszférának, ha az MI-tréning, fejlesztés és a webes adatgyűjtés mérete nő. Ezek az óriási adatcsomagok nemcsak “közérdekű” információkat szippantanak fel, hanem olyanokat is – állásjelentkezéseket, családi blogokat, gyerekkori híradásokat, személyes fotókat, bankkártyaadatokat – amelyeket a feltöltőjük sohasem szánt arra, hogy bárhol, bármire használják. Az MI-kutatás egyik “eredendő bűnévé” válik, hogy az emberek egykori, sokszor csak zárt körnek szánt adatait belesodorja a világ legrátermettebb algoritmusaiba.

Jövőkép: új szabályokat kell alkotni

A jogalkotás és az MI-fejlesztés etikai vetületei most teljesen új megvilágításba kerülnek – úgy törvényekben, mint szemléletben –, hiszen a hatalmas adatmennyiség nemcsak a nagy techcégek, hanem egyetemek, nonprofit szervezetek kezelésébe is bekerülhet. Hiába igyekszik néhány platform (mint a Hugging Face) bevezetni adatvédelmi megoldásokat, ezek visszacsatoló folyamatai nehézkesek, és gyakran az érintettek tudta nélkül történik minden.

Mindezek ellenére elkerülhetetlen, hogy a következő évek adatvédelmi vitái új, egyértelmű és egységes szabályokat hozzanak létre, és végre komolyan vegyék a magánélet digitális védelmét – akár jogszabály, akár kutatói etika formájában.

2025, adminboss, www.technologyreview.com alapján

Legfrissebb posztok

MA 15:23

Az indie akció-RPG, ahol letaszítod és szöges falba vágod őket

Felmerül a kérdés, hogy mivel lehet kitűnni a Minecrafthoz hasonló, tömbös látványvilágú játékok világából, ha mindenki szinte ugyanazzal próbálkozik...

MA 15:12

A római könyvtár mélyéről került elő az angol költészet elveszett kincse

Egy ír egyetemen dolgozó kutatócsoport véletlenül bukkant rá a legrégebbi fennmaradt angol versre, miközben egy középkori könyvet lapozgatott egy római könyvtár digitalizált gyűjteményében...

MA 15:01

A DeFi új frontja: VerifiedX szerint jön a programozható, privát Bitcoin-korszak

💰 Ilyen eset például, amikor a Bitcoin körül egyre többen keresik, hogyan lehetne a világ legrégebbi blokkláncát végre nemcsak értéktárolásra használni, hanem valódi DeFi (decentralizált pénzügyi) alkalmazásokat futtatni rajta...

MA 14:56

A Civilization 7-be ingyen érkezik a történelem leghíresebb hódítója

A Civilizáció 7 (Civilization 7) legújabb frissítése hétfőn fut be, és meglepetésként minden játékos számára elérhetővé teszi a történelem egyik leghíresebb hadvezérét, Nagy Sándort...

MA 14:34

A Szaharában egyiptomiaknál régebbi, óriási kör alakú tömegsírokra bukkantak

A Kelet-Szudánban, a hatalmas Atbai-sivatagban többéves kutatómunka alatt 260 hatalmas, kör alakú temetőt sikerült azonosítani, amelyek jóval az ókori Egyiptom létrejötte előtt épültek...

MA 13:45

A Firedancer lassan, de biztosan építi a Solana új infrastruktúráját

🔥 A Jump Crypto új validátor kliense, a Firedancer, már csendben működik a Solana főhálózatán...

MA 13:34

A ChatGPT már a bankszámládra pályázik – mi baj lehet?

Az OpenAI legfrissebb újítása egy személyes pénzügyi szolgáltatás, amelyet jelenleg az USA-ban tesztelnek Pro-előfizetőkkel...

MA 13:23

A Webb és a Hubble az Örvény-galaxis vakító mélyére merülnek

Erre jellemző példa, hogy a csillagászok egy lenyűgöző, új felvételt készítettek az Örvény-galaxisról (Whirlpool Galaxy, Messier 51), amely közelebb visz bennünket a csillagok születésének rejtélyeinek megértéséhez...

MA 12:56

Az igazán ijesztő: az ellopott bankkártyád olcsóbb, mint egy kávé

💸 A digitális világban minden eddiginél könnyebb pénztárca nélkül áldozattá válni. Egy friss kutatás szerint a sötét weben mindössze 4500 forintért hozzá lehet jutni egy brit bankkártya teljes adataihoz, míg egy teljes digitális azonosítócsomag 15 ezer forintba kerül...

MA 12:34

Az agyátültetés még mindig lehetetlen – miért?

Jellemző példa erre, hogy Arizonában több mint 150 levágott fejet tárolnak kriogén kamrákban abban a reményben, hogy a jövő orvostudománya egyszer újra életre keltheti őket egy másik testben...

MA 11:12

Az elveszett, 1200 éves kézirat az első angol verset rejti

Egy tizenkilencedik századi kézirat került elő Rómában, amely igazi szenzációnak számít a nyelvészek és irodalomtudósok körében: a Trinity College Dublin kutatóinak sikerült azonosítani az egyik legkorábbi, ma ismert angol vers egyik legrégebbi változatát...

MA 11:01

A Riválisok 2 elkezdődött – a csúszást egy váratlan csavar indokolja

A Riválisok (Rivals) második évadának első három epizódja már elérhető a Hulu-n és a Disney+-on, viszont a rajongók csalódottan tapasztalhatják, hogy a szezon második felére idén még várni kell...

MA 10:55

Az ok, amiért egyes daganatok mégis túlélik a kemoterápiát

💉 A rákos sejtek makacs túlélése régóta okoz fejtörést az orvosoknak, különösen, amikor a legerősebb terápiák is hatástalanok maradnak...

MA 10:46

Az új kutatás lerombolja a jojódiéta legnagyobb félelmét

Érdemes megvizsgálni, hogy tényleg mindenáron kerülni kell-e a jojódiétát. Az évek óta tartó rettegés, miszerint az ismétlődő fogyás és visszahízás árthat az egészségnek, úgy tűnik, nem támasztható alá meggyőző tudományos bizonyítékokkal...

MA 10:27

A 150 millió éves, lenyűgöző sztégoszaurusz-koponya átírja a dinoszauruszok történetét

Egy Spanyolországban talált, 150 millió éves, elképesztően jól megmaradt sztégoszaurusz-koponya alapjaiban változtatja meg mindazt, amit eddig a dinoszauruszok fejlődéséről tudtunk...

MA 10:19

A világ folyói fulladoznak: vészesen fogy az oxigén, veszélyben az élővilág

Tipikus esete annak, hogy az éghajlatváltozás alattomos hatásait csak akkor vesszük észre, amikor már drámaian romlanak a természeti rendszerek...

APP
MA 09:12

APPok, Amik Ingyenesek MA, 5/17

Fizetős iOS appok és játékok, amik ingyenesek a mai napon.     100 Plants – Grow & Learn (iPhone/iPad)A 100 Plants – Grow & Learn oktató alkalmazásban 100 különféle növényt lehet nevelni magtól virágzásig, öt fejlődési szakaszban (mag, csíra, levél, bimbó, virág)...

MA 09:01

A WHO globális vészhelyzetet hirdet a kongói ebola miatt – 80 haláleset

A Kongói Demokratikus Köztársaság és Uganda területén kitört ebola-járványt vasárnap nemzetközi jelentőségű egészségügyi vészhelyzetnek minősítette az Egészségügyi Világszervezet...

MA 08:55

A Forza Horizon 6 máris rekordot döntött, pedig még meg sem jelent

🏁 A Forza Horizon 6 még hivatalosan meg sem jelent, de már most népszerűbb, mint az előző, ötödik rész...

MA 08:28

Az MI-vel írók váltsanak pályát – üzeni Seth Rogen

💬 Felmerül a kérdés, hogy a hagyományos írás vagy az MI használata hordoz-e valódi kreativitást...

MA 08:18

A Survivor Görögország forgatását leállították: egy versenyző majdnem elvesztette a lábát

A Survivor – Görögország (Survivor Greece) forgatását azonnali hatállyal leállították, miután egy fiatal versenyző, Stavros Floros életveszélyes balesetet szenvedett...

MA 07:55

A veterán Final Fantasy XI 24 év után is tartogat újdonságokat

Több mint két évtizeddel a debütálása után a Final Fantasy XI továbbra is kitart az online szerepjátékok világában...

MA 07:37

Az üzleti vakfolt: az MI kiiktatja a saját tanítómestereit

A technológiai átalakulás új korszakát éljük, ahol a fejlett algoritmusok már nemcsak támogatják, hanem egyre inkább kiváltják azokat a szakértői feladatokat, amelyekben az embereknek fejlődniük kellene...

MA 07:28

A hivatalos Garfield-crossover végre megérkezett a Magic: The Gatheringbe

A világ talán leghíresebb macskája, Garfield végre hivatalosan is beköszön a Magic: The Gathering különkiadásai közé...

MA 07:19

Az érettségi ajándéklista: menő kütyük és kolis alapcuccok

Az iskolapadból az egyetemi életbe kilépni mindig izgalmas, egy jó ajándék pedig még könnyebbé teheti az átállást...

MA 07:02

A GameSir G8+ MFi végre kijavította az elődje hibáit?

A GameSir G8+ MFi jelentős előrelépés a mobil játékvezérlők világában, amely a G8 Galileo bevált tulajdonságait vette alapul, majd szinte minden kritikus ponton továbbfejlesztette azt...

MA 06:55

A Mixtape nem kerül le: a kiadó cáfolja a zenelicenc-pánikot

Kételyek merültek fel, hogy a nemrég megjelent, Mixtape című történetközpontú játék hamarosan eltűnhet a digitális boltokból a zeneszámok licencproblémái miatt...

MA 06:46

Az adatközpontok ára: 16 millió otthonnyi áram – ki nyer?

Hihetetlen, de mégis igaz, hogy az Egyesült Államokban működő adatközpontok évente annyi áramot fogyasztanak, amellyel több mint 16 millió otthon energiaigényét lehetne fedezni...

MA 06:37

A Microsoft AI-központja Kenyában az ország felét lekapcsolná

Kenya elképesztő technológiai ugrásra készült, amikor májusban bejelentették a G42 és a Microsoft közös, 1 milliárd dolláros adatközpont-beruházását...