Az MI végre elfelejtheti a kínos titkait és lopott könyveit

Az MI-modellek fejlesztéséhez hatalmas mennyiségű adat szükséges, és a cégek gyakran mindenféle engedélykérés nélkül gyűjtenek be mindent az internetről, beleértve a szerzői jog által védett könyveket is. Ezek a gyakorlatok sorozatos jogi vitákhoz vezettek, ráadásul a szabályozó hatóságok is vizsgálják, hogy az MI-fejlesztők meg tudnak-e felelni például az Európai Általános Adatvédelmi Rendeletben (GDPR) szereplő törlési jogi előírásoknak, vagy a kaliforniai hasonló szabályozásnak. A legegyszerűbb megoldás a kényes vagy jogsértő adatok eltávolítására az lenne, ha ezek nélkül újra képeznék a modelleket, de ez több tízmillió GPU-órányi számítási kapacitást és tetemes költségeket igényelne, így gyakorlatilag kivitelezhetetlen.

Új módszerek a felesleges tudás eltávolítására

A kutatók ezért hatékonyabb módszereken dolgoznak, hogy a modellek képesek legyenek bizonyos információkat elfelejteni vagy „kitörölni” magukból anélkül, hogy újraképzésre lenne szükség. Sok módszer azonban feltételezi, hogy az eredeti tanító adatállomány rendelkezésre áll, ami gyakran nem igaz, hiszen azt a cégek már rég törölték vagy elérhetetlenné tették.

Basak Guler, a Kaliforniai Egyetem docense és csapata egy olyan számításilag hatékony módszert mutatott be, amelyhez nincs szükség az eredeti adathalmazra. Ez a „forrás nélküli elfelejtés” koncepciója: egy helyettesítő adatkészletet és egy úgynevezett Newton-frissítést használnak a modell módosításához, majd rejtett, véletlenszerű zajjal biztosítják, hogy a törölni kívánt adatok valóban eltűnjenek.

A végeredmény: gyorsabb tisztítás, kevesebb energia

Kísérleteik során az új eljárás a teljes újratanítással összevethető eredményt hozott, miközben jóval kevesebb számítási erőforrást igényelt. Ez nagy előrelépést jelent a magán- vagy szerzői jog által védett adatok gyors és hatékony törlésére irányuló törekvésekben.

Egyelőre a módszer főként egyszerűbb MI-modelleken működik, a hatalmas, népszerű csevegőrobotokat működtető nyelvi modellek (LLM-ek) esetében további kutatásra van szükség. Guler szerint még rengeteg a nyitott kérdés – például hogy hogyan építsük fel a helyettesítő adatkészletet –, de ez az első lépés a jogszerű és etikus MI-fejlesztés útján.

2025, adrienne, go.theregister.com alapján

Share on Social Media

Legfrissebb posztok

Az okosotthonok bukása: egyre többen kapcsolnak vissza analógra

Dél-Afrikában bukkantak rá az első fenékhúzásos ősleletre

Az igazi T. rex unokatestvér a porondon: új dínó vagy csak tini?

Az európai természetvédelem sorsát az agráripar dönti el

Az MI is tud rágalmazni? A Google nagy dilemmája

Első lépések a gyerekek testi biztonságának megtanításához

Az okos otthon helyett digitális hirdetőtáblák vesznek minket körül

Az MI nem gondolkodik helyettünk, de kié a felelősség

Óriási meglepetés, a kanári-szigeteki pók megfelezi a genetikai állományát

Az OpenAI túl nagy lett, hogy elbukjon?

A túl nagy aláírás önimádatot jelez?

Az internet tényleg ennyire törékeny? Megdöbbentő Cloudflare-jelentés

Az igazságügy új csodafegyvere: ujjlenyomat a kilőtt töltényhüvelyen

Az első kínai víz alatti adatközpont lenyomja a Microsoftot

A Penn Egyetemet ért brutális adatszivárgás: 1,2 millió donor adatai kerültek ki

APPok, Amik Ingyenesek MA, 11/3

Miért nem számítanak a fogak csontnak, itt az igazság

Az intersztelláris üstökös, amely kívülről érkezett hozzánk

Az egész Karib-térség gyászol: 50 halott Melissa hurrikánja után