Az agy-beszéd átirat forradalma: új esély a lebénultaknak

Az agy-beszéd átirat forradalma: új esély a lebénultaknak
Stephen Hawking, a legendás brit fizikus, az amyotróf laterálszklerózis (ALS) egyik legismertebb arca volt. Kommunikációját évekig egy speciális, szemüvegbe szerelt szenzor tette lehetővé, amely egy arcizom apró mozdulatát érzékelte. Így választotta ki a betűket a képernyőn, nagyjából percenként egy szó sebességgel. Amikor elkészült a mondat, azt szintetizátor szóvá alakította – innen származik Hawking jellegzetes, robotikus hangja.

Út a gondolattól a beszédig

2018 óta óriási előrelépések történtek az agy-számítógép interfészek (BCI) területén. Míg korábban ezek a rendszerek csak korlátozott szókészlettel, jelentős késéssel, és a beszéd árnyalatainak elvesztésével működtek, ma már valós idejű, hangalapú átalakításra is képesek. A Kaliforniai Egyetem (UC Davis) kutatócsapatának új fejlesztése elsőként képes az agyi jeleket azonnal, közvetlenül hangokká – akár szavakká – alakítani. Ez lehet az első igazi lépés egy digitális hangképző apparátus felé.

Áttörés a szövegből a hangba

Korábban a legfejlettebb neuroprotézisek leginkább szövegalapú megoldások voltak: a páciens gondolatai szavakként jelentek meg a kijelzőn. Egy stanfordi kutatócsoport 25%-os hibaaránnyal dolgozó rendszert épített – vagyis a szavak háromnegyedét helyesen visszaadták. Ez ugyan óriási előrelépést jelentett, de a beszéd árnyaltsága, az interakció lehetősége hiányzott.

Egy évvel később, 2024-ben a UC Davis csapatának sikerült a pontosságot 97,5%-ra növelni – a legtöbb szó helyes volt, de továbbra is csak szöveges kommunikációra adott lehetőséget. Ez pedig nem pótolja a hangos beszéd előnyeit: az interakciót, az élő közlést, az éneklést vagy a szleng szavak szabad használatát. A legtöbb rendszerben a beszéd szintézise is csak késleltetéssel történt, gyakran egy szűk, kb. 1300 szavas szótárból dolgozva, ami az idegen nyelvi, összetett vagy ritka kifejezések elmondását ellehetetlenítette.

Ezért a kutatók célja az lett, hogy agyi jelekből közvetlenül hangokat állítsanak elő – valós időben.

Hang a gondolatból: hogyan működik?

Az első sikeres tesztekben egy 46 éves, ALS-ben szenvedő, súlyosan lebénult beteg (kódneve: T15) vett részt. Beszéde szinte érthetetlen volt; korábban egy giroszkópos fejegerrel, a kurzor mozgatásával kommunikált. A korai agy-szöveg rendszert 256 mikroelektródával oldották meg, melyeket a hangképzésért felelős agyterületbe ültettek.

Az új, agy-hang rendszer is ezt az elektródahálót alkalmazta. Az elektródák egyenkénti idegsejt-aktivitást rögzítettek – a legnagyobb felbontásban. Ezeket az adatokat egy MI-algoritmus (neural decoder) dolgozta fel, és nyerte ki belőlük a beszéd jellemzőit: például a hangmagasságot és a hangképzést. A következő lépésben ezeket egy vokóder nevű algoritmus használta fel, hogy a T15 eredeti, betegség előtti hangját szimulálja. A teljes átalakítás kevesebb mint 10 ezredmásodpercig tartott – a hangképzés szinte azonnali volt.

Mivel a rendszer nem szótárból dolgozott, a beteg bármilyen szót, hangutánzó szavakat és érzelmi árnyalatokat is képes volt közvetíteni, akár a beszéd dallamosságát, kérdő hangsúlyt, sőt, rövid éneklést is.


Hatékonyság és korlátok

Az első teszteken emberi hallgatók 100%-os pontossággal tudták a szintetizált mondatokat az írott szöveggel párosítani. Nyitottabb, transzkripciós feladatnál, amikor nem voltak meg a lehetséges mondatok, a szavak több mint felét még ekkor is sikeresen azonosították – szemben a beteg segédeszköz nélküli beszédével, ahol csak minden huszadik szó volt felismerhető. Azonban a technológia azonnali, hétköznapi kommunikációra még nem elég megbízható. Ennek ellenére kétségtelenül bizonyította a koncepció működőképességét.

A kutatók a további fejlődéstől legalább 1000-2000 elektródás rendszereket várnak, amelyek minden eddiginél pontosabb átalakítást tesznek majd lehetővé. Már most folynak a következő generációs, több ezer elektródás kísérletek is, többek között az austini Paradromics cégnél, akik 1600 elektródás rendszert tesztelnek. Ezek klinikai próbái a UC Davisnél kezdődhetnek el, remélhetőleg néhány éven belül.

Mostanra tehát az agyhullám-alapú beszédszintetizálás nem csupán sci-fi: a technológia már a kísérleti stádiumban is fényéveket lépett előre, és egyre közelebb viszi az embereket ahhoz, hogy gondolataikat a saját, korábbi hangjukon szólaltathassák meg.

2025, adminboss, arstechnica.com alapján


Legfrissebb posztok


MA 21:51

Az utolsó utad: leáll a Revel fuvarmegosztás

A Revel teljesen leállítja fuvarmegosztó szolgáltatását New Yorkban, és kizárólag elektromos autók töltőhálózatának kiépítésére koncentrál. A vállalat jelenleg 100 töltőt üzemeltet öt helyszínen New Yorkban, és körülbelül 12-t...

Hogyan képes a kvantumvilág forrón is megdermedni

MA 21:26

Hogyan képes a kvantumvilág forrón is megdermedni

A kvantumfizika határai régóta izgatják a tudósokat: vajon egy atomnál vagy molekulánál jóval nagyobb tárgyak is mutathatnak-e kvantumjelenségeket? Kiemelendő, hogy egy svájci–osztrák kutatócsoport nemrégiben áttörést ért el ezen...

Apró részecskék, új trükkel alakítják át a szén-dioxidot

MA 20:52

Apró részecskék, új trükkel alakítják át a szén-dioxidot

⚡ Nem mindegy, mekkora egy katalizátorrészecske: a legújabb felfedezések szerint ezek a parányi nanorészecskék képesek teljesen megváltoztatni formájukat, miközben éppen szén-dioxidot alakítanak át üzemanyaggá. Az amerikai Brookhaveni Nemzeti Laboratórium...

Az ősragadozó bálnák aranyos álcája mögött borotvaéles fogak lapultak

MA 20:26

Az ősragadozó bálnák aranyos álcája mögött borotvaéles fogak lapultak

🐟 Újabb szenzációs leletek kerültek elő Ausztrália partjainál: a kutatók egy közel 26 millió éves ősi bálna fosszíliáit tárták fel, amelynek szokatlanul nagy, előrenéző szemei és pengeszerű fogai voltak....

Az ingyenes e-mail-szélhámos-leleplező, amitől rettegnek a csalók

MA 20:01

Az ingyenes e-mail-szélhámos-leleplező, amitől rettegnek a csalók

A kéretlen e-mailes átverések egyre ravaszabbak, és gyakran már a tapasztalt felhasználók sem tudják első pillantásra eldönteni, hogy egy üzenet gyanús-e vagy sem. Nem egyszer fordult elő, hogy...

Az utolsó csilingelő modem: búcsú az AOL betárcsázós internetétől

MA 19:51

Az utolsó csilingelő modem: búcsú az AOL betárcsázós internetétől

Szeptember 30-án végleg leáll az AOL betárcsázós internetszolgáltatása, amely 1991 óta rengeteg amerikai számára jelentette az első belépést a világhálóba. A Yahoo tulajdonában lévő cég hivatalos közleménye szerint...

Az óceánok vaséhsége: kevesebb vas, kevesebb oxigén

MA 19:26

Az óceánok vaséhsége: kevesebb vas, kevesebb oxigén

Az óceáni algák fotoszintézise nélkül minden második lélegzetvételünk hiányozna – az óceán ugyanis oxigéntermelő nagyhatalom. Ez a folyamat azonban a vas apró szemcséinek köszönhetően működik, amelyeket a szárazföldi...


MA 19:03

Átlátszó Liquid Glass és MI, új korszak az iPhone-nál

Az ősz idén jelentős változásokat hoz az iPhone-felhasználók számára: letölthető a nyilvános iOS 26 béta második verziója, amely nemcsak új funkciókat tartalmaz, hanem egy teljesen megújult, Liquid Glass...


MA 18:54

Meglepő dolgokat hoz az iOS 26, teljesen átalakul az iPhone?

Az ősz során minden iPhone-felhasználóra izgalmas újdonságok várnak, ráadásul az Apple végre előállt a Liquid Glass nevű, vadonatúj megjelenési stílussal. A jelenleg is elérhető iOS 26 nyilvános béta...