Az MI titkos adatzabálása: személyes adataink milliói veszélyben

Az MI titkos adatzabálása: személyes adataink milliói veszélyben
Óriási mennyiségű érzékeny, személyazonosításra alkalmas adat került be az egyik legnagyobb, képgeneráló MI-modellek tanítására használt adatbázisba, a DataComp CommonPool nevű nyílt forráskódú készletbe. Bár a kutatók csak a teljes állomány 0,1 százalékát vizsgálták át, ezalatt is több ezer arccal és személyes dokumentummal, például útlevéllel, bankkártyával, születési anyakönyvi kivonattal és önéletrajzzal találkoztak. Arra következtetnek, hogy a teljes, 12,8 milliárd képet és szöveget tartalmazó állományban akár több százmillió ilyen adatdarab is lehet.

Személyes okmányok nyilvánosan

A vizsgálat során a kutatók több ezer érvényes személyi igazolványtípust (útlevelet, jogosítványt, bankkártyát, születési bizonyítványt) azonosítottak, emellett 800-nál is több, állásjelentkezéshez kapcsolódó dokumentumot (önéletrajzot vagy motivációs levelet) találtak, amelyek valós személyekhez köthetők a LinkedIn és más internetes források alapján. Az önéletrajzok egy része érzékeny adatokat tartalmaz, például fogyatékosságot, háttérellenőrzés eredményét, hozzátartozók születési idejét és helyét, rasszt, de gyakran előfordul lakcím, kapcsolattartó személyek adatai, kormányzati azonosítók és arcképek is.

Fontos megjegyezni, hogy a kutatók minden azonosítható információt anonimizáltak, az arcokat kitakarták, a szövegeket átírták, hogy megelőzzék a visszaélés lehetőségét.

Gigantikus adatgyűjtés, kevés kontroll

A DataComp CommonPool 2023-as indulásakor a maga 12,8 milliárd párosított kép-szöveg példájával a legnagyobb nyilvánosan elérhető ilyen adatbázisnak számított, amelyet főként generatív MI tanítására használnak. Bár a készítők eredetileg tudományos céllal állították össze, a licenc nem tiltja a kereskedelmi felhasználást sem.

Az adatállományt a LAION-5B utódjaként, azzal azonos módszerrel és forrásból állították össze: a nemzetközi Common Crawl nonprofit szervezet 2014–2022 között végzett webszkenneléseinek eredményeiből. A két nagy adatcsomag így jelentős átfedést mutat, vagyis minden, a DataComp CommonPoolban azonosított személyes adat szinte biztosan megtalálható más, onnan tanított modellekben is, például az Állandó Diffúzió (Stable Diffusion) vagy a Középutazás (Midjourney) algoritmusokban. A CommonPool állományt az elmúlt két évben már több mint kétmilliószor töltötték le, így rengeteg további modell, szoftver és fejlesztés épült rá, amelyek mind továbbörökítik a privát információkat.

A szűrés rémálma: arcok és metaadatok ezrei maradtak bent

A szakértők szerint teljesen lehetetlen teljes körű (és hibátlan) szűrést megvalósítani egy ekkora adatállományban: mindig maradnak benne érzékeny adatok, legyen szó képekről, metaadatokról, szöveges információról vagy arcképekről. Bár a CommonPool kezelői például automatikus arcfelismerő elhomályosítót is alkalmaztak, a kutatók szerint a program így is 800-nál több arcot hagyott figyelmen kívül már az általuk vizsgált kis mintában is. A teljes adatbázisban akár 102 millióra is rúghat a bent maradt arcok száma. Mindezek ellenére nem alkalmaztak olyan automata szűrőket, amelyek például az email-címeket vagy társadalombiztosítási számokat kiszűrték volna.

További problémát jelent, hogy a fotókhoz tartozó képaláírásokban, leírásokban, sőt a képmetaadatokban sokszor még több személyes adat rejtőzik: nevek, pontos lakcímek, sőt, helymeghatározás is gyakran előfordul. A Hugging Face platform ugyan rendelkezik olyan eszközzel, amely elvileg lehetővé teszi az adatok eltávolítását, de ehhez az érintettnek először tudnia kellene arról, hogy szerepel az adatbázisban.


Jog nehezített pályán – törölni, de hogyan?

Ha valaki mégis észreveszi, hogy adata szerepel, könnyen lehet, hogy töröltetni már nem tudja maradandó hatások nélkül. Még ha érvényesíti is adatismereti vagy törlési jogait, technikailag bonyolult a helyzet: ha csak magából az adatbázisból törlik, de a tanított MI-modellekben már benne vannak, akkor a “károkozás” már megtörtént.

Fontos kiemelni, hogy a különböző országok, sőt államok eltérő jogszabályai (mint Európában a GDPR vagy Kaliforniában a CCPA) rendszerszintű védelmet ugyan teremtenek, de ezek csak nagyobb cégekre érvényesek, jellemzően nem vonatkoznak a kisebb, egyetemi kutatásokból kinőtt projektekre, ahogy a DataComp CommonPool példája is mutatja. Sőt, ezeknek a törvényeknek is vannak kiskapui: például a “közérdekűen nyilvános adatok” gyakran kivételt képeznek. Az MI-kutatók eddig általában azon az elven dolgoztak, hogy amint valami kikerül az internetre, az már közadatnak, nem magánadatnak minősül – a mostani kutatások azonban ezt az elvet is megkérdőjelezik.

A beleegyezés illúziója

A DataComp CommonPool 2014 és 2022 közötti webes forrásokra támaszkodik, vagyis bővelkedik olyan fotókban és adatokban, amelyeket a tulajdonosuk még az MI-robbanás (és például a CsevegőGPT [ChatGPT] 2020 utáni megjelenése) előtt töltött fel a netre. Hiába tartotta akkor magát biztonságban valaki, az adat gyakorlatilag bármelyik “adatbányán” keresztül eljuthatott akárhová: sokszor már az sem segít, ha valaki később letörli saját tartalmát. Gyerekek adatai – születési igazolás, útlevél, egészségi státusz – is nagy számban előfordulnak, ráadásul gyakran olyan kontextusban, amelyből eredetileg csak szűk kör láthatta volna.

Mi számít privátnak a digitális világban?

Ebből kifolyólag élesen kérdéses lett, mit tekinthetünk ténylegesen magánszférának, ha az MI-tréning, fejlesztés és a webes adatgyűjtés mérete nő. Ezek az óriási adatcsomagok nemcsak “közérdekű” információkat szippantanak fel, hanem olyanokat is – állásjelentkezéseket, családi blogokat, gyerekkori híradásokat, személyes fotókat, bankkártyaadatokat – amelyeket a feltöltőjük sohasem szánt arra, hogy bárhol, bármire használják. Az MI-kutatás egyik “eredendő bűnévé” válik, hogy az emberek egykori, sokszor csak zárt körnek szánt adatait belesodorja a világ legrátermettebb algoritmusaiba.

Jövőkép: új szabályokat kell alkotni

A jogalkotás és az MI-fejlesztés etikai vetületei most teljesen új megvilágításba kerülnek – úgy törvényekben, mint szemléletben –, hiszen a hatalmas adatmennyiség nemcsak a nagy techcégek, hanem egyetemek, nonprofit szervezetek kezelésébe is bekerülhet. Hiába igyekszik néhány platform (mint a Hugging Face) bevezetni adatvédelmi megoldásokat, ezek visszacsatoló folyamatai nehézkesek, és gyakran az érintettek tudta nélkül történik minden.

Mindezek ellenére elkerülhetetlen, hogy a következő évek adatvédelmi vitái új, egyértelmű és egységes szabályokat hozzanak létre, és végre komolyan vegyék a magánélet digitális védelmét – akár jogszabály, akár kutatói etika formájában.

2025, adminboss, www.technologyreview.com alapján

Legfrissebb posztok

MA 12:17

Az Amazon műholdas netje nevet váltott, az árak elszálltak

Az Amazon műholdas internethálózata mostantól egyszerűen Leo néven fut, ezzel véget ért a korábbi Project Kuiper időszak...

MA 12:01

Az Apple felborítja az iPhone-menetrendet: jön az iPhone Air?

Az Apple 2027 márciusára időzítheti az új iPhone Air megjelenését, amelyet rögtön az iPhone 18 és az iPhone 18e is követhet...

MA 11:49

Az új kriptokrach: elolvadt a Bitcoin idei nyeresége

Kevesebb mint másfél hónappal azután, hogy új történelmi rekordot döntött, a Bitcoin teljesen lenullázta idei 30%-os nyereségét...

MA 11:34

Az önéletrajz titka, amitől azonnal behívnak interjúra

📌 Különösen igaz ez akkor, ha egy jó önéletrajz egész karriert indíthat el, miközben egy átláthatatlan, rosszul szerkesztett dokumentum azonnal elveszítheti a döntéshozók figyelmét...

MA 11:17

Az űr az adatközpontok következő nagy dobása?

A technológiai nagyágyúk egyre komolyabban foglalkoznak azzal, hogy adatközpontokat építsenek a világűrben...

MA 10:58

Az elektronok vadonatúj állapota átírhatja a kvantumtechnológia szabályait

Az elektromosság mindennapjaink hajtóereje: autók, telefonok, számítógépek és szinte minden modern eszköz működésének alapja...

MA 10:41

Az afrikai pingvineket a halászat a kihalás szélére sodorja

🐧 Az afrikai pingvinek (Spheniscus demersus) drámai mértékben kiszorulnak természetes élőhelyeikről, mivel évről évre egyre erősebben versengenek a kereskedelmi halászhajókkal az élelemért...

MA 10:34

A hawaii gömbölyűfejű delfinek megőrülnek a tintahalért

A hawaii vizekben élő rövidszárnyú gömbölyűfejű delfinek (Globicephala macrorhynchus) hatalmas mennyiségű tintahalat fogyasztanak...

MA 10:26

A Princeton új kvantumchipje felforgatja a piacot

A Princeton Egyetem mérnökei háromszor stabilabb szupravezető qubitet alkottak, mint bármely korábbi típus, ezzel jelentősen közelebb hozva a valóban működőképes, megbízható kvantumszámítógépek korszakát...

MA 09:59

Az Intel elkaszálta a zászlóshajó Xeon szerverprocesszorokat

🛠 Megemlíthető továbbá, hogy az adatközponti piac rohamosan változik: az utóbbi hetekben az Intel új vezetés alatt alaposan átvizsgálta szerverprocesszor-útitervét, amely végül komoly irányváltáshoz vezetett...

MA 09:41

Az elektromos autók akkumulátorai áttörés előtt: itt az új korszak

Az LFP (lítium-vas-foszfát) akkumulátorok terjedése új lendületet kapott, miután 2022-ben lejártak a legfontosabb szabadalmak az alapkémiára...

MA 09:34

Az olasz fonalóriás is bedőlt: napvilágra kerültek a sztárdivat titkai

Fulgar, a H&M, az Adidas, a Wolford és a Calzedonia szintetikus fonalbeszállítója kénytelen elismerni, hogy zsarolóvírus-támadás érte, amelyet a hírhedt RansomHouse-csoporthoz kötnek...

MA 09:17

A mikrobák okos koktéljai átírják a növényvédelem szabályait

A Kínai Tudományos Akadémia kutatói áttörő módszert fejlesztettek ki, amellyel mesterségesen összeállított, jótékony mikrobaközösségekkel jelentősen javítható a növények egészsége, és elnyomhatók a talajeredetű betegségek...

MA 09:02

Az Android-appok zabálják az akkut? Érkezik a Google-riasztás!

Az okostelefon-felhasználók örülhetnek: a Google bejelentette, hogy a Play Áruházban hamarosan külön megjelölést kapnak azok az Android-alkalmazások, amelyek túlzott háttértevékenységükkel rengeteg akkumulátort fogyasztanak...

MA 08:25

Az Ozempic-láz ára: amiről eddig nem beszéltünk

💸 Megemlíthető továbbá, hogy a legújabb GLP-1 gyógyszerek, mint az Ozempic, a Wegovy és a Mounjaro nagymértékű fogyást ígérnek, de most olyan rizikók kerültek előtérbe, amelyek eddig kevés figyelmet kaptak...

MA 08:19

Az emberszabásúak észjárása: Tényleg majdnem olyan okosak, mint mi?

🐒 A racionalitást évezredek óta az ember kizárólagos jellemzőjének tartották. Már Arisztotelész is azt állította, hogy az emberek abban különböznek az állatoktól, hogy képesek bizonyítékok alapján átgondolni, sőt felülbírálni saját nézeteiket...

MA 08:08

Az űrszemét tartotta fogva a hazatérő kínai űrhajósokat

Három kínai űrhajós pénteken tért vissza a Földre, miután több mint kilencnapos késéssel hagyhatták el a kínai űrállomást...

MA 07:58

A mesterséges intelligencia zsarolható? Meglepő a válasz

A legfrissebb kutatások azt vizsgálták, mennyire tudnak a legnépszerűbb MI-modellek ellenállni a manipulációnak, amikor káros vagy illegális tartalmat próbálnak kicsikarni belőlük...

MA 07:49

A Plejádok rejtett rokonsága – az ég titkos családfája

Évszázadok óta ismert látvány a Pleiadok csillaghalmaza, más néven a Hét Nővér, amelyről eddig úgy hittük, csak egy kis, ragyogó csillagcsalád...