
Új technológia, helyben futtatható modellel
A Privacy Filter az OpenAI gpt-oss modellcsaládjának továbbfejlesztett változata, de jelentős eltérésekkel. Míg a szokványos nagy nyelvi modellek (LLM) általában egyirányúan dolgozzák fel a szöveget, ez a modell kétirányú tokenosztályozóként működik, vagyis egyszerre mindkét irányból elemzi a mondatokat. Így pontosabban képes felismerni, hogy például egy “Alice” név magánszemélyt vagy irodalmi szereplőt takar-e.
A Privacy Filter 1,5 milliárd paramétert tartalmaz, de egy adott működés során csak 50 millió paramétert aktivál, így gyors, de nem igényel komoly erőforrásokat. Óriási, 128 000 tokenes kontextusablakának köszönhetően akár teljes jogi dokumentumokat vagy hosszú e-mailváltásokat is egyben át tud vizsgálni, anélkül, hogy eltévedne a szövegben. A BIOES (Begin, Inside, Outside, End, Single) címkéző rendszer tovább növeli a pontosságot: például egy név több tagját is összetartozóként kezeli.
Adattisztítás helyben, vállalati igényekre
A Privacy Filter nem a felhőben, hanem helyben – akár egy átlagos laptopon vagy böngészőben is – képes dolgozni. Alapvetően nyolc fő adatvédelmi kategóriát tud felismerni: magánszemélyek neveit, elérhetőségi adatokat (cím, e-mail, telefonszám), digitális azonosítókat (URL, számlaszám, dátumok) és titkos információkat (jelszavak, API-kulcsok).
A vállalatok akár saját infrastruktúrájukon, privát felhőben is bevethetik, hogy helyben anonimizálják adataikat, mielőtt azokat fejlettebb MI-modellekkel, például GPT-5-tel dolgoznák fel – így megfelelhetnek olyan adatvédelmi szabályozásoknak, mint a GDPR vagy a HIPAA. Fejlesztők számára a Hugging Face felületén is elérhető, sőt, a transformers.js révén teljes egészében böngészőben, WebGPU-val használható.
Apache 2.0 licenc, üzleti szabadság
Fontos megjegyezni, hogy a Privacy Filter a nagyon megengedő Apache 2.0 licenc alatt jelent meg. Ez azt jelenti, hogy startupok, fejlesztői csapatok vagy nagyvállalatok szabadon testreszabhatják, beépíthetik zárt termékeikbe, és kereskedelmi forgalomba is hozhatják – mindezt jogdíj vagy kötelező forrásmegnyitás nélkül. A vállalatok finomhangolhatják saját, speciális igényeik szerint (például orvosi terminológiára vagy saját naplóformátumokra), így pontosabbá tehetik az adatvédelmet.
Ez a modell egyfajta „szöveges SSL”-ként működhet az MI-korszak adatvédelmi kihívásai között, megteremtve a biztonságos adatfeldolgozás új iparági sztenderdjét.
Gyors elismerés, de óvatosságra intenek
A szakmai közösség gyorsan reagált, többen kiemelték, hogy az OpenAI milyen összetett kihívásoknak felelt meg ilyen kis méretű modellel – például Elie Bakouch (Prime Intellect) szerint 1,5 milliárd paraméterből csak 50 millió fut egyszerre, mégis 128 ezres kontextusú szöveget képes átlátni.
A kisebb, de specializált modellek kora jött el, ahol egy-egy jól behatárolt feladatra, például az anonimizálásra, hatékony és gyors megoldás szükséges. Végül fontos megjegyezni, hogy az OpenAI hivatalosan figyelmeztetett: a Privacy Filter csak segédeszköz az automatikus adattisztításra, nem garantált a teljes biztonság, főleg érzékeny jogi vagy orvosi adatok esetén – érdemes további ellenőrzéseket is alkalmazni.
Az OpenAI ezzel az eszközzel átláthatóbbá, olcsóbbá és biztonságosabbá teszi az MI-alapú adatfeldolgozást, új iparági mércét állítva az adatvédelemben.
