Az agy-beszéd átirat forradalma: új esély a lebénultaknak

Stephen Hawking, a legendás brit fizikus, az amyotróf laterálszklerózis (ALS) egyik legismertebb arca volt. Kommunikációját évekig egy speciális, szemüvegbe szerelt szenzor tette lehetővé, amely egy arcizom apró mozdulatát érzékelte. Így választotta ki a betűket a képernyőn, nagyjából percenként egy szó sebességgel. Amikor elkészült a mondat, azt szintetizátor szóvá alakította – innen származik Hawking jellegzetes, robotikus hangja.

Út a gondolattól a beszédig

2018 óta óriási előrelépések történtek az agy-számítógép interfészek (BCI) területén. Míg korábban ezek a rendszerek csak korlátozott szókészlettel, jelentős késéssel, és a beszéd árnyalatainak elvesztésével működtek, ma már valós idejű, hangalapú átalakításra is képesek. A Kaliforniai Egyetem (UC Davis) kutatócsapatának új fejlesztése elsőként képes az agyi jeleket azonnal, közvetlenül hangokká – akár szavakká – alakítani. Ez lehet az első igazi lépés egy digitális hangképző apparátus felé.

Áttörés a szövegből a hangba

Korábban a legfejlettebb neuroprotézisek leginkább szövegalapú megoldások voltak: a páciens gondolatai szavakként jelentek meg a kijelzőn. Egy stanfordi kutatócsoport 25%-os hibaaránnyal dolgozó rendszert épített – vagyis a szavak háromnegyedét helyesen visszaadták. Ez ugyan óriási előrelépést jelentett, de a beszéd árnyaltsága, az interakció lehetősége hiányzott.

Egy évvel később, 2024-ben a UC Davis csapatának sikerült a pontosságot 97,5%-ra növelni – a legtöbb szó helyes volt, de továbbra is csak szöveges kommunikációra adott lehetőséget. Ez pedig nem pótolja a hangos beszéd előnyeit: az interakciót, az élő közlést, az éneklést vagy a szleng szavak szabad használatát. A legtöbb rendszerben a beszéd szintézise is csak késleltetéssel történt, gyakran egy szűk, kb. 1300 szavas szótárból dolgozva, ami az idegen nyelvi, összetett vagy ritka kifejezések elmondását ellehetetlenítette.

Ezért a kutatók célja az lett, hogy agyi jelekből közvetlenül hangokat állítsanak elő – valós időben.

Hang a gondolatból: hogyan működik?

Az első sikeres tesztekben egy 46 éves, ALS-ben szenvedő, súlyosan lebénult beteg (kódneve: T15) vett részt. Beszéde szinte érthetetlen volt; korábban egy giroszkópos fejegerrel, a kurzor mozgatásával kommunikált. A korai agy-szöveg rendszert 256 mikroelektródával oldották meg, melyeket a hangképzésért felelős agyterületbe ültettek.

Az új, agy-hang rendszer is ezt az elektródahálót alkalmazta. Az elektródák egyenkénti idegsejt-aktivitást rögzítettek – a legnagyobb felbontásban. Ezeket az adatokat egy MI-algoritmus (neural decoder) dolgozta fel, és nyerte ki belőlük a beszéd jellemzőit: például a hangmagasságot és a hangképzést. A következő lépésben ezeket egy vokóder nevű algoritmus használta fel, hogy a T15 eredeti, betegség előtti hangját szimulálja. A teljes átalakítás kevesebb mint 10 ezredmásodpercig tartott – a hangképzés szinte azonnali volt.

Mivel a rendszer nem szótárból dolgozott, a beteg bármilyen szót, hangutánzó szavakat és érzelmi árnyalatokat is képes volt közvetíteni, akár a beszéd dallamosságát, kérdő hangsúlyt, sőt, rövid éneklést is.

Hatékonyság és korlátok

Az első teszteken emberi hallgatók 100%-os pontossággal tudták a szintetizált mondatokat az írott szöveggel párosítani. Nyitottabb, transzkripciós feladatnál, amikor nem voltak meg a lehetséges mondatok, a szavak több mint felét még ekkor is sikeresen azonosították – szemben a beteg segédeszköz nélküli beszédével, ahol csak minden huszadik szó volt felismerhető. Azonban a technológia azonnali, hétköznapi kommunikációra még nem elég megbízható. Ennek ellenére kétségtelenül bizonyította a koncepció működőképességét.

A kutatók a további fejlődéstől legalább 1000-2000 elektródás rendszereket várnak, amelyek minden eddiginél pontosabb átalakítást tesznek majd lehetővé. Már most folynak a következő generációs, több ezer elektródás kísérletek is, többek között az austini Paradromics cégnél, akik 1600 elektródás rendszert tesztelnek. Ezek klinikai próbái a UC Davisnél kezdődhetnek el, remélhetőleg néhány éven belül.

Mostanra tehát az agyhullám-alapú beszédszintetizálás nem csupán sci-fi: a technológia már a kísérleti stádiumban is fényéveket lépett előre, és egyre közelebb viszi az embereket ahhoz, hogy gondolataikat a saját, korábbi hangjukon szólaltathassák meg.

2025, adminboss, arstechnica.com alapján

Share on Social Media