Az agy-beszéd átirat forradalma: új esély a lebénultaknak

Az agy-beszéd átirat forradalma: új esély a lebénultaknak
Stephen Hawking, a legendás brit fizikus, az amyotróf laterálszklerózis (ALS) egyik legismertebb arca volt. Kommunikációját évekig egy speciális, szemüvegbe szerelt szenzor tette lehetővé, amely egy arcizom apró mozdulatát érzékelte. Így választotta ki a betűket a képernyőn, nagyjából percenként egy szó sebességgel. Amikor elkészült a mondat, azt szintetizátor szóvá alakította – innen származik Hawking jellegzetes, robotikus hangja.

Út a gondolattól a beszédig

2018 óta óriási előrelépések történtek az agy-számítógép interfészek (BCI) területén. Míg korábban ezek a rendszerek csak korlátozott szókészlettel, jelentős késéssel, és a beszéd árnyalatainak elvesztésével működtek, ma már valós idejű, hangalapú átalakításra is képesek. A Kaliforniai Egyetem (UC Davis) kutatócsapatának új fejlesztése elsőként képes az agyi jeleket azonnal, közvetlenül hangokká – akár szavakká – alakítani. Ez lehet az első igazi lépés egy digitális hangképző apparátus felé.

Áttörés a szövegből a hangba

Korábban a legfejlettebb neuroprotézisek leginkább szövegalapú megoldások voltak: a páciens gondolatai szavakként jelentek meg a kijelzőn. Egy stanfordi kutatócsoport 25%-os hibaaránnyal dolgozó rendszert épített – vagyis a szavak háromnegyedét helyesen visszaadták. Ez ugyan óriási előrelépést jelentett, de a beszéd árnyaltsága, az interakció lehetősége hiányzott.

Egy évvel később, 2024-ben a UC Davis csapatának sikerült a pontosságot 97,5%-ra növelni – a legtöbb szó helyes volt, de továbbra is csak szöveges kommunikációra adott lehetőséget. Ez pedig nem pótolja a hangos beszéd előnyeit: az interakciót, az élő közlést, az éneklést vagy a szleng szavak szabad használatát. A legtöbb rendszerben a beszéd szintézise is csak késleltetéssel történt, gyakran egy szűk, kb. 1300 szavas szótárból dolgozva, ami az idegen nyelvi, összetett vagy ritka kifejezések elmondását ellehetetlenítette.

Ezért a kutatók célja az lett, hogy agyi jelekből közvetlenül hangokat állítsanak elő – valós időben.

Hang a gondolatból: hogyan működik?

Az első sikeres tesztekben egy 46 éves, ALS-ben szenvedő, súlyosan lebénult beteg (kódneve: T15) vett részt. Beszéde szinte érthetetlen volt; korábban egy giroszkópos fejegerrel, a kurzor mozgatásával kommunikált. A korai agy-szöveg rendszert 256 mikroelektródával oldották meg, melyeket a hangképzésért felelős agyterületbe ültettek.

Az új, agy-hang rendszer is ezt az elektródahálót alkalmazta. Az elektródák egyenkénti idegsejt-aktivitást rögzítettek – a legnagyobb felbontásban. Ezeket az adatokat egy MI-algoritmus (neural decoder) dolgozta fel, és nyerte ki belőlük a beszéd jellemzőit: például a hangmagasságot és a hangképzést. A következő lépésben ezeket egy vokóder nevű algoritmus használta fel, hogy a T15 eredeti, betegség előtti hangját szimulálja. A teljes átalakítás kevesebb mint 10 ezredmásodpercig tartott – a hangképzés szinte azonnali volt.

Mivel a rendszer nem szótárból dolgozott, a beteg bármilyen szót, hangutánzó szavakat és érzelmi árnyalatokat is képes volt közvetíteni, akár a beszéd dallamosságát, kérdő hangsúlyt, sőt, rövid éneklést is.


Hatékonyság és korlátok

Az első teszteken emberi hallgatók 100%-os pontossággal tudták a szintetizált mondatokat az írott szöveggel párosítani. Nyitottabb, transzkripciós feladatnál, amikor nem voltak meg a lehetséges mondatok, a szavak több mint felét még ekkor is sikeresen azonosították – szemben a beteg segédeszköz nélküli beszédével, ahol csak minden huszadik szó volt felismerhető. Azonban a technológia azonnali, hétköznapi kommunikációra még nem elég megbízható. Ennek ellenére kétségtelenül bizonyította a koncepció működőképességét.

A kutatók a további fejlődéstől legalább 1000-2000 elektródás rendszereket várnak, amelyek minden eddiginél pontosabb átalakítást tesznek majd lehetővé. Már most folynak a következő generációs, több ezer elektródás kísérletek is, többek között az austini Paradromics cégnél, akik 1600 elektródás rendszert tesztelnek. Ezek klinikai próbái a UC Davisnél kezdődhetnek el, remélhetőleg néhány éven belül.

Mostanra tehát az agyhullám-alapú beszédszintetizálás nem csupán sci-fi: a technológia már a kísérleti stádiumban is fényéveket lépett előre, és egyre közelebb viszi az embereket ahhoz, hogy gondolataikat a saját, korábbi hangjukon szólaltathassák meg.

2025, adminboss, arstechnica.com alapján


Legfrissebb posztok

MA 17:30

Az Office ikonok, amelyeket a Microsoft soha nem mert bevezetni

🛠 A Microsoft legújabb Office-ikonjai világszerte megjelennek a felhasználók képernyőin, de csak kevesen tudják, hány különös és szokatlan tervet utasított el a vállalat, mire megszületett a végleges dizájn...

MA 17:00

Így szúrd ki, ha Sora 2 videója át akar verni

👀 A Sora 2, az OpenAI fejlett szövegből videót készítő modellje mérföldkő a mesterséges intelligencia fejlődésében...

MA 16:29

Az MI-modellek tudáshiányos világa: óriási az elmaradás

A nagy nyelvi MI-modellek fejlődését beárnyékolja, hogy sok lényeges emberi tudás kimarad a képzésükből...

MA 16:02

Lehet, hogy a tévéd már a mesterséges intelligencia arcoddal hirdet?

🤔 A DirecTV 2026-tól radikális újdonsággal készül a Gemini streaming eszközein: érkeznek az MI által generált reklámképernyők, amelyeken akár a te arcod is főszerepet kaphat...

MA 15:59

Most már flörtölnek a mesterséges intelligenciák, és pénzt is termelnek

😉 Az OpenAI vezérigazgatója, Sam Altman nemrégiben bejelentette, hogy a ChatGPT hamarosan képes lesz felnőtt felhasználók számára erotikus tartalmakat is létrehozni, miután a vállalat szerinte már orvosolta a mesterséges intelligenciával folytatott beszélgetések okozta mentális egészségi kockázatokat...

MA 15:30

A CDC elbocsátásai veszélybe sodorhatják az egész országot

Az Egyesült Államok Járványügyi Központjánál (CDC) az elmúlt hétvégén tömeges elbocsátások zajlottak le, amelyek alapjaiban rengették meg a közegészségügyi rendszer működését...

MA 15:01

Tényleg fiatalabb lesz az immunrendszerünk, ha edzünk?

💪 Az egész életen át tartó állóképességi sportolás nemcsak az izmokat, hanem az immunrendszert is folyamatosan edzésben tartja, így az fiatalosan és hatékonyan működik...

MA 14:59

Az égen feltűnt legfurcsább rádiókarika titka

👀 A világ legerősebb és legtávolabbi rádiókarikájára (furcsa rádiókarika, ORC – odd radio circle) bukkant rá egy nemzetközi csillagászcsapat, amelyben lelkes amatőrök is részt vettek...

MA 14:31

Soha nem látott gamma-kitörés, fekete lyuk nyelte el a hatalmas csillagot

💫 2025. július 2-án az amerikai NASA Fermi Gamma-ray Burst Monitor (Fermi-GBM) közel három órán át észlelt jeleket ugyanabból a forrásból...

MA 14:02

Tévedtünk a holdkráterrel kapcsolatban, de most már tisztábban látunk

A Hold legnagyobb és legősibb kráteréről, a Déli-sark–Aitken (South Pole–Aitken) medencéről csak most derült ki, mennyire másként keletkezett, mint eddig gondoltuk...

MA 13:59

Az asztali minigép, amellyel a MI beköltözik az irodába

💻 Az Nvidia új, mindössze 1,2 kg súlyú számítógépe, a DGX Spark, 128 GB egyesített memóriával és egy petaflops számítási teljesítménnyel érkezik, mindezt egy 15 x 15 x 5 cm-es dobozban...

MA 13:45

Az MI-vel évente 36 milliárdot spórol a Salesforce

A Salesforce ügyfélszolgálati folyamatai MI-alapú eszközökkel működnek, amelyek évente körülbelül 36 milliárd forint megtakarítást hoznak a cégnek...

MA 10:32

Átírhatják az ősi aranysziklák az élet történetét

Évmilliárdokkal ezelőtt, amikor a Földet még sűrű, oxigénhiányos tengerek borították, aligha gondolnánk, hogy ekkor is rejtőzhettek már komplex élőlények...

MA 10:22

Az új Samsung Moohan szemüveg mindent felforgathat

👀 A Samsung hivatalosan is bejelentette, hogy október 21-én este 10 órakor bemutatja a régóta várt Project Moohan vegyes valóság szemüveget...

MA 10:16

Polgárok próbálják visszaszerezni az irányítást a mesterséges intelligencia felett

Tíz jelentős amerikai filantróp szervezet fogott össze, hogy ne csak néhány technológiai milliárdos döntsön arról, mire használják a mesterséges intelligenciát, hanem a hétköznapi emberek érdekei is érvényesüljenek...

MA 10:08

A Google szégyene: füstölgő Pixel 10 Pro Fold a hajlításteszten

🔥 A Google legújabb csúcsmobilja, a Pixel 10 Pro Fold igazán drámai bukást produkált a híres JerryRigEverything YouTube-csatorna hajlítástesztjén...

MA 10:02

Az MI-reklámok már a nappalinkba is beköltöznek, itt a DirecTV legújabb dobása

A DirecTV, az amerikai műholdas tévészolgáltató, legújabb MI-alapú hirdetési megoldását jelentette be: hamarosan személyre szabott, interaktív reklámvilág jelenik meg a tévéképernyő képernyővédőjén, ahol saját magadat, családodat vagy akár a házi kedvencedet is viszontláthatod – természetesen MI-generált változatban...

MA 09:57

Az új Samsung XR szemüveg már a küszöbön: ezt tudjuk

💻 Október 21-én mutatja be legújabb Android XR szemüvegét a Samsung, amelyet egy ideje csak Project Moohan néven emlegetnek...

MA 09:51

Az MI ne ismételje vissza a politikai véleményeket

💡 Az OpenAI jelentős lépéseket tesz annak érdekében, hogy a ChatGPT ne igazolja vagy ismételje meg a felhasználók politikai nézeteit...