2025. 06. 29., 22:01

Az agy-beszéd átirat forradalma: új esély a lebénultaknak

Az agy-beszéd átirat forradalma: új esély a lebénultaknak
Stephen Hawking, a legendás brit fizikus, az amyotróf laterálszklerózis (ALS) egyik legismertebb arca volt. Kommunikációját évekig egy speciális, szemüvegbe szerelt szenzor tette lehetővé, amely egy arcizom apró mozdulatát érzékelte. Így választotta ki a betűket a képernyőn, nagyjából percenként egy szó sebességgel. Amikor elkészült a mondat, azt szintetizátor szóvá alakította – innen származik Hawking jellegzetes, robotikus hangja.

Út a gondolattól a beszédig

2018 óta óriási előrelépések történtek az agy-számítógép interfészek (BCI) területén. Míg korábban ezek a rendszerek csak korlátozott szókészlettel, jelentős késéssel, és a beszéd árnyalatainak elvesztésével működtek, ma már valós idejű, hangalapú átalakításra is képesek. A Kaliforniai Egyetem (UC Davis) kutatócsapatának új fejlesztése elsőként képes az agyi jeleket azonnal, közvetlenül hangokká – akár szavakká – alakítani. Ez lehet az első igazi lépés egy digitális hangképző apparátus felé.

Áttörés a szövegből a hangba

Korábban a legfejlettebb neuroprotézisek leginkább szövegalapú megoldások voltak: a páciens gondolatai szavakként jelentek meg a kijelzőn. Egy stanfordi kutatócsoport 25%-os hibaaránnyal dolgozó rendszert épített – vagyis a szavak háromnegyedét helyesen visszaadták. Ez ugyan óriási előrelépést jelentett, de a beszéd árnyaltsága, az interakció lehetősége hiányzott.

Egy évvel később, 2024-ben a UC Davis csapatának sikerült a pontosságot 97,5%-ra növelni – a legtöbb szó helyes volt, de továbbra is csak szöveges kommunikációra adott lehetőséget. Ez pedig nem pótolja a hangos beszéd előnyeit: az interakciót, az élő közlést, az éneklést vagy a szleng szavak szabad használatát. A legtöbb rendszerben a beszéd szintézise is csak késleltetéssel történt, gyakran egy szűk, kb. 1300 szavas szótárból dolgozva, ami az idegen nyelvi, összetett vagy ritka kifejezések elmondását ellehetetlenítette.

Ezért a kutatók célja az lett, hogy agyi jelekből közvetlenül hangokat állítsanak elő – valós időben.

Hang a gondolatból: hogyan működik?

Az első sikeres tesztekben egy 46 éves, ALS-ben szenvedő, súlyosan lebénult beteg (kódneve: T15) vett részt. Beszéde szinte érthetetlen volt; korábban egy giroszkópos fejegerrel, a kurzor mozgatásával kommunikált. A korai agy-szöveg rendszert 256 mikroelektródával oldották meg, melyeket a hangképzésért felelős agyterületbe ültettek.

Az új, agy-hang rendszer is ezt az elektródahálót alkalmazta. Az elektródák egyenkénti idegsejt-aktivitást rögzítettek – a legnagyobb felbontásban. Ezeket az adatokat egy MI-algoritmus (neural decoder) dolgozta fel, és nyerte ki belőlük a beszéd jellemzőit: például a hangmagasságot és a hangképzést. A következő lépésben ezeket egy vokóder nevű algoritmus használta fel, hogy a T15 eredeti, betegség előtti hangját szimulálja. A teljes átalakítás kevesebb mint 10 ezredmásodpercig tartott – a hangképzés szinte azonnali volt.

Mivel a rendszer nem szótárból dolgozott, a beteg bármilyen szót, hangutánzó szavakat és érzelmi árnyalatokat is képes volt közvetíteni, akár a beszéd dallamosságát, kérdő hangsúlyt, sőt, rövid éneklést is.


Hatékonyság és korlátok

Az első teszteken emberi hallgatók 100%-os pontossággal tudták a szintetizált mondatokat az írott szöveggel párosítani. Nyitottabb, transzkripciós feladatnál, amikor nem voltak meg a lehetséges mondatok, a szavak több mint felét még ekkor is sikeresen azonosították – szemben a beteg segédeszköz nélküli beszédével, ahol csak minden huszadik szó volt felismerhető. Azonban a technológia azonnali, hétköznapi kommunikációra még nem elég megbízható. Ennek ellenére kétségtelenül bizonyította a koncepció működőképességét.

A kutatók a további fejlődéstől legalább 1000-2000 elektródás rendszereket várnak, amelyek minden eddiginél pontosabb átalakítást tesznek majd lehetővé. Már most folynak a következő generációs, több ezer elektródás kísérletek is, többek között az austini Paradromics cégnél, akik 1600 elektródás rendszert tesztelnek. Ezek klinikai próbái a UC Davisnél kezdődhetnek el, remélhetőleg néhány éven belül.

Mostanra tehát az agyhullám-alapú beszédszintetizálás nem csupán sci-fi: a technológia már a kísérleti stádiumban is fényéveket lépett előre, és egyre közelebb viszi az embereket ahhoz, hogy gondolataikat a saját, korábbi hangjukon szólaltathassák meg.

2025, adminboss, arstechnica.com alapján

Legfrissebb posztok

MA 14:01

Az új iOS gyorsan meríti az iPhone-t? Nyugi, normális!

Kiugrott az új iOS 26.4 március 24-én, hozott magával egy rakás izgalmat: végre saját videós podcastok pörögnek az Apple Podcastsban, némi hibajavítás is becsúszott, meg persze még pár apróság...

MA 13:56

Az Anthropic szigorít: csúcsidőben drágul az MI-csevegés

⚠ Az Anthropic szerdán váratlan fordulattal módosította a Claude nevű MI-szolgáltatás időalapú felhasználási korlátait...

MA 13:45

Az új Langflow-sebezhetőségre már rárepültek a hackerek

A Langflow-keretrendszer egy súlyos sebezhetőség miatt került veszélybe, amelyet a hackerek már aktívan ki is használnak...

MA 13:34

A kisbefektetők pánikban szórják a bitcoint, a nagyok kivárnak

A bitcoin megint zuhan, most épp 24,5 millió forint alá esett egy darabja, és ahogy ez lenni szokott, előkerül a pánikgomb: akik 10 bitcoint (vagyis nagyjából 245 millió forintnyit) tartanak vagy annál kevesebbet, szó szerint menekítik a vagyonukat...

MA 13:23

A legjobb gamepadok egyike most fillérekért elvihető

🎮 Egy lényeges szempont, hogy a hardverhiány miatti áremelkedés főként a belső alkatrészekre volt jellemző, de a perifériák ára nagyrészt stabil maradt...

MA 12:01

A pumpamentes átfolyós akkumulátor: tényleg ez a jövő?

Most őszintén, észrevetted már, hogy a legtöbb flow battery (átfolyós akkumulátor) bonyolult pumpákkal van telepakolva?..

MA 11:44

A nagy blama: milliárdok menekülnek a bitcoin ETF-ekből

💸 Csütörtökön nagyot rándult a piac: a befektetők egyetlen nap alatt 62 milliárd forint értékű – azaz 171 millió dollárnyi – tőkét vontak ki az amerikai bitcoin ETF-ekből...

MA 11:11

Lezárul egy korszak: az Apple kivezeti a Mac Pro-t

Szevasz, Mac Pro, hello, régi idők! Az Apple minden megmaradt Mac Pro-rajongónak most azt üzeni: köszi, ennyi volt...

MA 11:01

Az Apple lebuktatja az iCloud+ álcímeket – így buksz le

Azt hinnéd, elég, ha iCloud+-on elrejted az igazi e‑mail-címedet a Hide My Email funkcióval, de nem...

MA 10:50

A valódi holland hackerjátszma: mélymerülés a rendőrség rendszereibe

🕵 Na hát ennyit erről, de aztán jön a váratlan fordulat: a holland rendőrség kénytelen volt elismerni, hogy őket is célba vették egy ügyes adathalász-támadással...

MA 10:43

A Samsung böngészője mostantól pénzt spórol a kasszánál

💸 A Samsung hamarosan új, Smart Shopping nevű funkcióval bővítheti népszerű böngészőjét, amely automatikusan kuponokat keres és alkalmaz különböző webáruházakban...

MA 10:37

Az űrutazás árnyoldala: a súlytalanság tönkreteheti a fogantatást

👽 Az űrutazás újabb hátulütővel szembesített minket: a súlytalanság gyakorlatilag lehetetlenné teszi a sikeres szaporodást...

MA 10:29

Az új Tether-audit: jön a KPMG, milliárdok a tét

A Tether, a világ legnagyobb stabilcoin-kibocsátója, átfogó pénzügyi átvilágítást indított az USDT tartalékairól, a 185 milliárd dollárt (kb...

MA 10:22

Az anonim bűnügyi bejelentések tényleg nem biztonságosak?

Ilyen eset például, amikor az ember teljes biztonságban érzi magát egy anonim rendőrségi bejelentőfelületen, majd pár kattintás után kiderül, mennyire könnyen kijátszható a rendszer...

MA 10:16

Az ősi barlang, ahol kiderült: rokonok voltak a neandervölgyiek

Egy apró, 110 000 éves csontdarab a híres Denisova-barlangból Szibériában újabb részleteket tárt fel a neandervölgyiek életéről...

MA 10:08

Az éhező méhek titkos fegyvere: szuperélelmiszerrel újraindul a beporzás

🦋 A világ méhpopulációja évek óta aggasztó ütemben csökken, és ez hatalmas kockázatot jelent az élelmiszer-ellátásra...

MA 10:01

Az Ajax adatvédelmi botránya: veszélybe kerültek a szurkolók

💀 Kezdetben a holland Ajax Amsterdam futballklub informatikai rendszerében olyan sebezhetőséget találtak, amelyhez egy hacker férhetett hozzá...

MA 09:57

Az új Google Gemini: most tényleg itt az MI-forradalom

Végre itt egy MI-funkció, amire tényleg vártunk! A Gemini mostantól lehetőséget ad arra, hogy gond nélkül áthozd minden csevegésedet és adatodat más mesterségesintelligencia-alkalmazásokból...

MA 09:36

Az Android 17 berobbanthatja a VPN-ek forradalmát

Úgy tűnik, a Google az Android-felhasználók egyik legidegesítőbb problémájára készül megoldást adni...

MA 09:30

Az antarktiszi bálnák diadalmas visszatérése ismét veszélyben

Az elmúlt évtizedekben csendben, de látványosan elkezdődött a bálnapopulációk regenerálódása a Déli-óceán vad vizeiben...

MA 09:22

Az új Google Search Live teljesen átírhatja a netes keresést

🔍 A Google forradalmi Search Live funkciója már 200 országban, 98 nyelven elérhető, és teljesen új szintre emeli az online keresést...

MA 09:15

A Mac Pro sorsa megpecsételődött: az Apple végleg lemond róla

💀 Az Apple hivatalosan is megszünteti a legendás Mac Pro asztali gépét, amelyet csütörtökön el is távolítottak a cég weboldaláról...

MA 09:01

A Wikipédia kitiltja az AI-t: vége a gépi zagyvaságnak

🚫 Búcsút inthetünk az AI-zabált cikkeknek a Wikipédián, mert az óriási, szabad enciklopédia végre kimondta: nincs több robotírás, kivéve néhány nagyon ritka esetben...

MA 08:57

Az ezeréves oltár véres titkai: emberáldozatok Tulában

Egy több ezer éves oltár került elő Mexikóban, amelyet a Tolték Birodalom idején emberáldozatokhoz használtak...

MA 08:51

Az Anthropic súlyos adatbiztonsági bakija: kiszivárgott a titkos MI-fejlesztés

🔒 Fontos kérdés, hogy mennyire biztonságosak a vezető technológiai cégek adatkezelési megoldásai, amikor egy apró figyelmetlenség is komoly belső információk kiszivárgásához vezethet...

MA 08:36

A szerelem két lakcím között: együtt, mégis külön

Mindenki ismeri azt a klasszikus szerelmi menetet: megismerkedés, összejövetel, majd összeköltözés – mintegy a kapcsolat komolyságának bizonyítékaként...

MA 08:22

Az új Gemini-frissítés: zökkenőmentes váltás, könnyebb mindennapok

A Gemini mostantól lehetővé teszi, hogy minden eddiginél egyszerűbben válts más MI-csevegőalkalmazásról úgy, hogy közben nem veszítesz el semmit a korábbi beszélgetéseidből vagy emlékeidből...

MA 08:15

Az új One UI 8.5 felpörgeti a Samsung Linux terminált

💻 A One UI 8.5 verzióval jelentős fejlesztések érkeztek a Linux Terminálhoz az Exynos-alapú Samsung mobilokon...

MA 08:01

A megfizethető 10 GbE switch, ami megváltoztatja a hálózatodat

A SICSOLINK SFP-J06Q-HG2-US igazán szokatlan látvány: ez a nyolcportos, 10 gigabites Ethernet switch már első pillantásra felhívja magára a figyelmet rikító zöld és narancssárga előlappal...