2025. 08. 03., 21:26

Az MI titkos adatzabálása: személyes adataink milliói veszélyben

Az MI titkos adatzabálása: személyes adataink milliói veszélyben
Óriási mennyiségű érzékeny, személyazonosításra alkalmas adat került be az egyik legnagyobb, képgeneráló MI-modellek tanítására használt adatbázisba, a DataComp CommonPool nevű nyílt forráskódú készletbe. Bár a kutatók csak a teljes állomány 0,1 százalékát vizsgálták át, ezalatt is több ezer arccal és személyes dokumentummal, például útlevéllel, bankkártyával, születési anyakönyvi kivonattal és önéletrajzzal találkoztak. Arra következtetnek, hogy a teljes, 12,8 milliárd képet és szöveget tartalmazó állományban akár több százmillió ilyen adatdarab is lehet.

Személyes okmányok nyilvánosan

A vizsgálat során a kutatók több ezer érvényes személyi igazolványtípust (útlevelet, jogosítványt, bankkártyát, születési bizonyítványt) azonosítottak, emellett 800-nál is több, állásjelentkezéshez kapcsolódó dokumentumot (önéletrajzot vagy motivációs levelet) találtak, amelyek valós személyekhez köthetők a LinkedIn és más internetes források alapján. Az önéletrajzok egy része érzékeny adatokat tartalmaz, például fogyatékosságot, háttérellenőrzés eredményét, hozzátartozók születési idejét és helyét, rasszt, de gyakran előfordul lakcím, kapcsolattartó személyek adatai, kormányzati azonosítók és arcképek is.

Fontos megjegyezni, hogy a kutatók minden azonosítható információt anonimizáltak, az arcokat kitakarták, a szövegeket átírták, hogy megelőzzék a visszaélés lehetőségét.

Gigantikus adatgyűjtés, kevés kontroll

A DataComp CommonPool 2023-as indulásakor a maga 12,8 milliárd párosított kép-szöveg példájával a legnagyobb nyilvánosan elérhető ilyen adatbázisnak számított, amelyet főként generatív MI tanítására használnak. Bár a készítők eredetileg tudományos céllal állították össze, a licenc nem tiltja a kereskedelmi felhasználást sem.

Az adatállományt a LAION-5B utódjaként, azzal azonos módszerrel és forrásból állították össze: a nemzetközi Common Crawl nonprofit szervezet 2014–2022 között végzett webszkenneléseinek eredményeiből. A két nagy adatcsomag így jelentős átfedést mutat, vagyis minden, a DataComp CommonPoolban azonosított személyes adat szinte biztosan megtalálható más, onnan tanított modellekben is, például az Állandó Diffúzió (Stable Diffusion) vagy a Középutazás (Midjourney) algoritmusokban. A CommonPool állományt az elmúlt két évben már több mint kétmilliószor töltötték le, így rengeteg további modell, szoftver és fejlesztés épült rá, amelyek mind továbbörökítik a privát információkat.

A szűrés rémálma: arcok és metaadatok ezrei maradtak bent

A szakértők szerint teljesen lehetetlen teljes körű (és hibátlan) szűrést megvalósítani egy ekkora adatállományban: mindig maradnak benne érzékeny adatok, legyen szó képekről, metaadatokról, szöveges információról vagy arcképekről. Bár a CommonPool kezelői például automatikus arcfelismerő elhomályosítót is alkalmaztak, a kutatók szerint a program így is 800-nál több arcot hagyott figyelmen kívül már az általuk vizsgált kis mintában is. A teljes adatbázisban akár 102 millióra is rúghat a bent maradt arcok száma. Mindezek ellenére nem alkalmaztak olyan automata szűrőket, amelyek például az email-címeket vagy társadalombiztosítási számokat kiszűrték volna.

További problémát jelent, hogy a fotókhoz tartozó képaláírásokban, leírásokban, sőt a képmetaadatokban sokszor még több személyes adat rejtőzik: nevek, pontos lakcímek, sőt, helymeghatározás is gyakran előfordul. A Hugging Face platform ugyan rendelkezik olyan eszközzel, amely elvileg lehetővé teszi az adatok eltávolítását, de ehhez az érintettnek először tudnia kellene arról, hogy szerepel az adatbázisban.


Jog nehezített pályán – törölni, de hogyan?

Ha valaki mégis észreveszi, hogy adata szerepel, könnyen lehet, hogy töröltetni már nem tudja maradandó hatások nélkül. Még ha érvényesíti is adatismereti vagy törlési jogait, technikailag bonyolult a helyzet: ha csak magából az adatbázisból törlik, de a tanított MI-modellekben már benne vannak, akkor a “károkozás” már megtörtént.

Fontos kiemelni, hogy a különböző országok, sőt államok eltérő jogszabályai (mint Európában a GDPR vagy Kaliforniában a CCPA) rendszerszintű védelmet ugyan teremtenek, de ezek csak nagyobb cégekre érvényesek, jellemzően nem vonatkoznak a kisebb, egyetemi kutatásokból kinőtt projektekre, ahogy a DataComp CommonPool példája is mutatja. Sőt, ezeknek a törvényeknek is vannak kiskapui: például a “közérdekűen nyilvános adatok” gyakran kivételt képeznek. Az MI-kutatók eddig általában azon az elven dolgoztak, hogy amint valami kikerül az internetre, az már közadatnak, nem magánadatnak minősül – a mostani kutatások azonban ezt az elvet is megkérdőjelezik.

A beleegyezés illúziója

A DataComp CommonPool 2014 és 2022 közötti webes forrásokra támaszkodik, vagyis bővelkedik olyan fotókban és adatokban, amelyeket a tulajdonosuk még az MI-robbanás (és például a CsevegőGPT [ChatGPT] 2020 utáni megjelenése) előtt töltött fel a netre. Hiába tartotta akkor magát biztonságban valaki, az adat gyakorlatilag bármelyik “adatbányán” keresztül eljuthatott akárhová: sokszor már az sem segít, ha valaki később letörli saját tartalmát. Gyerekek adatai – születési igazolás, útlevél, egészségi státusz – is nagy számban előfordulnak, ráadásul gyakran olyan kontextusban, amelyből eredetileg csak szűk kör láthatta volna.

Mi számít privátnak a digitális világban?

Ebből kifolyólag élesen kérdéses lett, mit tekinthetünk ténylegesen magánszférának, ha az MI-tréning, fejlesztés és a webes adatgyűjtés mérete nő. Ezek az óriási adatcsomagok nemcsak “közérdekű” információkat szippantanak fel, hanem olyanokat is – állásjelentkezéseket, családi blogokat, gyerekkori híradásokat, személyes fotókat, bankkártyaadatokat – amelyeket a feltöltőjük sohasem szánt arra, hogy bárhol, bármire használják. Az MI-kutatás egyik “eredendő bűnévé” válik, hogy az emberek egykori, sokszor csak zárt körnek szánt adatait belesodorja a világ legrátermettebb algoritmusaiba.

Jövőkép: új szabályokat kell alkotni

A jogalkotás és az MI-fejlesztés etikai vetületei most teljesen új megvilágításba kerülnek – úgy törvényekben, mint szemléletben –, hiszen a hatalmas adatmennyiség nemcsak a nagy techcégek, hanem egyetemek, nonprofit szervezetek kezelésébe is bekerülhet. Hiába igyekszik néhány platform (mint a Hugging Face) bevezetni adatvédelmi megoldásokat, ezek visszacsatoló folyamatai nehézkesek, és gyakran az érintettek tudta nélkül történik minden.

Mindezek ellenére elkerülhetetlen, hogy a következő évek adatvédelmi vitái új, egyértelmű és egységes szabályokat hozzanak létre, és végre komolyan vegyék a magánélet digitális védelmét – akár jogszabály, akár kutatói etika formájában.

2025, adminboss, www.technologyreview.com alapján

Legfrissebb posztok

MA 07:57

Az energiaforradalom félbemaradt: még mindig a fosszilisek diktálnak

Különösen igaz ez most, amikor a megújuló energia egyre nagyobb szeletet hasít ki a világ energiaellátásából, miközben a fosszilis energiahordozók továbbra is markánsan jelen vannak...

MA 07:51

Az öngyilkos üstökös: először láttak önmagát pusztító, pörgő égitestet

🚀 Érdemes megvizsgálni, léteznek-e az űr mélyén olyan égi jelenségek, amelyek látszólag áthágják a fizika eddig ismert törvényeit...

MA 07:43

A mesterséges intelligencia másodpercek alatt klónozza a nyílt forráskódot – rémálom vagy zsenialitás?

Két szoftveres kutató most különösen pimasz módon mutatta be, milyen gyorsan képes a modern mesterséges intelligencia egész nyílt forráskódú projekteket újjáalkotni...

MA 07:36

A United alkalmazás már mutatja a reptéri várakozást – ha nem késik

✈ Végre megérkezett az a menüpont, amire mindenki vágyott: a United mostantól mutatja a beszállás előtti biztonsági ellenőrzések várakozási idejét az appban – vagyis, ha épp eszméletlenül hosszú sorok kígyóznak, pontosan tudhatod, mennyit fogsz unatkozni multitasking közben a poggyászoddal...

MA 07:29

A TrueConf hibája miatt ezrével csaptak le videókonferenciákra

📺 A hackerek egy súlyos, eddig ismeretlen biztonsági rést kihasználva támadták meg a TrueConf videókonferencia-szervereket...

MA 07:22

Az Nvidia végre véget vet a shader-fordítási kínoknak – de csak félig

💻 Amikor a PC-d éppen unatkozik, az Nvidia szerint igazán kihasználhatná az időt arra, hogy előre lefordítsa a játékokhoz szükséges shadereket...

MA 07:17

A Claude Code szelleme visszatért: kísért az MI-kód

Egyetlen óvatlan pillanat elég volt, hogy a vállalati biztonsági vezetők rémálma valóra váljon...

MA 07:09

Az ember visszatér a Holdra: elrajtolt az Artemis II küldetés

🚀 A floridai Kennedy Űrközpontból szerdán új korszak indult, amikor három amerikai és egy kanadai űrhajós útnak indult a Hold felé...

MA 07:01

A MOL és a Hitachi építheti Japán első lebegő adatközpontját

Japánban egyre komolyabban veszik a lebegő adatközpontok fejlesztését. A Mitsui OSK Lines (MOL) és a Hitachi most együttműködést kötött, hogy 2027-re egy használt hajóból alakítsanak ki egy úszó szerverfarmot, amely hűtéséhez tengervizet vagy folyóvizet használna...

MA 06:58

Az Apple kíméletlen döntései: miért buknak el egyes újdonságaik?

Tim Cook több mint tízéves vezérigazgatói pályafutása alatt az Apple-t a világ egyik legsikeresebb vállalatává emelte...

MA 06:50

Az új CrystalRAT: adatlopás és káosz egy csomagban

Egyre figyelemreméltóbb fenyegetést jelent a nemrég megjelent CrystalRAT, amelyet már Telegramon és YouTube-on is hirdetnek...

MA 06:44

Az optika kétszáz éves trükkje új korszakot nyit a kvantumtitkosításban

Fontos kérdés, hogy képesek vagyunk-e lépést tartani a digitális világ adatbiztonsági igényeivel...

MA 06:37

Az emberiség visszatér a Holdra fél évszázad után

2026. április 1-jén új korszak kezdődött az űrkutatásban: majdnem 54 év után ismét emberek indultak útnak a Hold felé...

MA 06:29

A NoVoice kártevő tombol, 2,3 millió androidos készüléket fertőzött meg

🚨 Az utóbbi időben több mint 2,3 millió androidos eszközt sikerült megfertőznie egy új, NoVoice névre keresztelt kártevőnek...

MA 06:22

Az újabb Solana-botrány: 70 milliárd forintnyi kriptó nyomtalanul eltűnt a Driftről

💸 A Solana-alapú Drift decentralizált pénzügyi platformon több mint 70 milliárd forint értékű kriptót vontak ki gyanús tranzakciók során...

MA 06:15

Az amerikaiak végre tű nélkül fogyhatnak: megérkezett a GLP–1 tabletta

Új korszak indult szerdán az USA-ban: az FDA rábólintott a Foundayo nevű GLP-1 tablettára, ami mostantól kapható lesz...

MA 06:09

Az MI romba döntheti versenyképességed – védd a kritikus tudást!

Érdekes felvetés, hogy a mesterséges intelligencia bevezetése milyen hatással lehet egy cég versenyképességére...

MA 06:05

Történelmi események a mai napon (Április 2.)

Április 2. tele van fordulópontokkal: Florida első európai észlelése, a Falkland-háború kirobbanása, Haile Selassie trónra lépése és nagy port kavart terrortámadások, illetve merényletek formálták a világot...

MA 06:01

Az MI jön, mennek a radiológusok? A kórházigazgatók készülnek

Mitchell H. Katz, a New York-i egészségügyi óriás, a NYC Health + Hospitals vezérigazgatója szerint, ha mesterséges intelligencia végezné az elsődleges radiológiai értékeléseket, jelentős összegeket lehetne megtakarítani...

szerda 21:56

Az óriásbankok is ringbe szállnak az előrejelzési piacokon?

A pénzügyi világban új verseny bontakozik ki: a hagyományos nagybankok – a JPMorgan és a Goldman Sachs – egyre komolyabban fontolgatják, hogy belépnek az úgynevezett előrejelzési piacok területére...

szerda 21:46

Az új csodapirula, a Foundayo, felforgatja a fogyókúrapiacot

Az amerikai Élelmiszer- és Gyógyszerügyi Hivatal (FDA) engedélyezte az Eli Lilly legújabb, GLP-1 típusú, szájon át szedhető gyógyszerét, a Foundayo-t...

szerda 21:26

Az űrtoalett áttörése: kényelmi forradalom a Hold felé

🚽 2026 áprilisában négy űrhajós indul útnak a Hold felé az Artemis II-misszió keretében, és magukkal visznek egy olyan űrtoalettet, amely a szó szoros értelmében forradalmasítja az űrutazás komfortját...

szerda 20:46

Az extrém időjárás már enyhe melegedésnél is könyörtelenül csap le

🌫 Felmerül a kérdés, hogy mennyire vagyunk biztonságban, ha a globális felmelegedést sikerül mérsékelt szinten tartani...

szerda 20:23

Az udvar koronázatlan királya: a Ninja Fireside360 mindent felfűt

A tavaszi esték hűvös leheletére legtöbben gyorsan visszavonulnak a négy fal közé, amikor kint elfogy a meleg...

szerda 20:12

Az iráni hekkerek imádnak hencegni, de ritkán ütnek nagyot

Képzeld el, hogy mindenki arról beszél, mennyire menők az iráni hekkerek, miközben a valóság egészen más képet mutat...

szerda 20:02

Az okosotthonod végre nem falja fel a sávszélt

Az okos otthoni biztonsági rendszered mostantól sokkal hatékonyabb lehet: a legújabb Matter 1...

szerda 19:58

A svéd iskolák visszatérnek a tankönyvekhez: újra hódít a papír

📚 Svédországban egyre inkább háttérbe szorulnak a digitális eszközök a tantermekben: a hagyományos könyvek és a kézírás ismét előtérbe kerülnek...

szerda 19:45

A Hershey visszahozza a Reese’s eredeti ízét – végre!

🍫 Évtizedek óta rajonganak érte, de a Reese’s mogyoróvajas csészék (Reese’s Peanut Butter Cups) népszerűsége ellenére az utóbbi időben változtattak a recepten: néhány különleges alkalomra készült terméken, például a kis húsvéti tojásokon, csökkent a valódi csokoládé aránya, olcsóbb összetevőkkel helyettesítve azt...

szerda 19:35

Az átlátható DNS, ami nem kémkedik: 1.1.1.1

Nyolc évvel ezelőtt indult útjára az 1.1.1.1 nyilvános DNS-feloldó, amelynek célja nem kevesebb volt, mint a világ leggyorsabb, a magánszférát tiszteletben tartó szolgáltatásának létrehozása...