Az MI-t becsapó védőpajzs: Itt az ASRJam

Izraeli és indiai kutatók hatékony védelmet fejlesztettek ki az automata, MI-alapú telefonos csalásokkal szemben. Az ASRJam egy beszédfelismerést zavaró rendszer, amely az EchoGuard nevű algoritmust használja, hogy észrevétlenül torzítsa a beszélő hangját – ezzel megzavarja a gépi beszédfelismerő rendszereket, miközben az emberi hallgatót nem akadályozza.

A vishing elleni küzdelem új frontja

A telefonos csalások robbanásszerűen terjedtek el napjainkra: 2024 első és második féléve között 442%-kal nőtt az ilyen támadások száma. Ezek során bűnözők MI által generált, valósághű hangon telefonálnak, és igyekeznek megszerezni az áldozat érzékeny adatait vagy cselekvésre bírni őket. Az USA Szövetségi Hírközlési Bizottsága már törvénybe is foglalta, hogy az ilyen MI-hangokkal végzett hívások illegálisak.

Az utóbbi időben a gépi beszédfelismerő (ASR) és a szöveg-beszéd (TTS) modellek fejlődése miatt ezek a támadások egyre nehezebben felismerhetők, és egyre sikeresebbek.

Az ASRJam működése

Freddie Grabovski, Gilad Gressel és Yisroel Mirsky felismerték, hogy a csalók gépi beszédfelismerője a leggyengébb láncszem. Az ASRJam éppen ezt támadja meg: valós időben fut a felhasználó eszközén, és univerzális, úgynevezett „ellenséges” zajokat kever a beszédhanghoz. Ezek a zajok összezavarják az ASR-t, miközben az emberi kommunikációt szinte észrevétlenül hagyják.

Az EchoGuard mindhárom fő módosítási elvet használja: visszhangot generál, mikrofonpozíció-változást szimulál, valamint apró hangelnyeléseket alkalmaz. Ezek a trükkök mind javítják a beszéd természetességét, miközben a MI modellek értetlenül állnak előttük.

A kutatók szerint ez az első, telepítésre is alkalmas, proaktív védelmi rendszer az automata telefonos csalások ellen, amely szinte minden MI-modell ellen bevethető, és nem igényel korábbi mintákat a célrendszerről.

Mennyire hatékony?

Az ASRJamet három nyilvános adatbázison (Tedlium, SPGISpeech, LibriSpeech – magyarul: LibriBeszéd) és hat népszerű ASR-modellen (köztük DeepSpeech, Wav2Vec2, Vosk, Whisper, SpeechBrain, IBM Watson) tesztelték. Az EchoGuard mindenhol felülmúlta az alapvető zavaró algoritmusokat, kivéve a ritkán alkalmazott SpeechBrain modellt.

A legmakacsabb ellenfél az OpenAI-féle Suttogás (Whisper) volt, mivel ezt rengeteg zajos mintán tanították. Ennek ellenére az EchoGuard ezzel szemben is fölényesen szerepelt: az algoritmus által elért 0,14-es „támadási sikerarány” (a LibriBeszéd adatbázison) azt jelenti, hogy minden hatodik felvétel erősen torzított, ami már elegendő ahhoz, hogy egy csaló MI-t csődbe vigyen, különösen párbeszédes helyzetekben.

Mi jöhet még?

Az ASRJam egyelőre kutatási fázisban van, de a fejlesztők már dolgoznak a továbbfejlesztésen és a termékké alakításon. A fő fejlesztési fókusz jelenleg is a Suttogás (Whisper) elleni hatékonyság növelése, ám mindennapi használatra már most is forradalmi védelmet nyújthat az MI-alapú csalások ellen. Remélhető, hogy hamarosan mindenki számára elérhető lesz, aki biztonságban szeretne telefonálni a csalókkal szemben.

2025, adminboss, go.theregister.com alapján

Share on Social Media