Mail.ruПочтаМой МирОдноклассникиИгрыЗнакомстваНовостиПоискВсе проекты

Из-за разного рода параличей некоторые пациенты теряют возможность говорить. Одним из самых известных подобных больных был страдавший от бокового амиотрофического склероза Стивен Хокинг. Ученый пользовался специальным дорогим синтезатором речи, который сделали специально для него.

Аналогичные интерфейсы зачастую основываются, например, на движениях головы или глаз пациента. Этими движениями больные управляют курсором и выбирают таким образом буквы на экране. Однако такое общение гораздо более медленное, чем естественная речь. Поэтому специалисты работают и в другом направлении, создавая интерфейсы мозг-компьютер, которые могли бы напрямую считывать сигналы мозга и преобразовывать их в слова.

Как раз такой интерфейс из двух рекуррентных нейросетей и синтезатора речи создали американские исследователи. Такая двухступенчатая система нужна потому, что кора головного мозга имеет дело не напрямую со словами. Она координирует только движения органов речи, которые эти слова произносят, поэтому ученые и прибегли к двойной дешифровке.

Чтобы получить исходные данные для работы, ученые использовали пятерых пациентов, которые лечились от эпилепсии. Во время терапии они проговаривали вслух несколько сотен предложений, а ученые во время этого считывали с поверхности коры их головного мозга электрические сигналы при помощи электрокортикографии.

Набор электродов, с помощью которых с речевых центров мозга пациентов считывались сигналы, которые впоследствии преобразовывались в речьUCSF.

Дальше в дело вступали две нейросети: первая преобразовывала эти электрические сигналы в кинематические, то есть в сигналы о том, как должны двигаться язык, губы и гортань. Вторая преобразовывала кинематические сигналы в акустические характеристики: высоту, частоту, просодии (неречевые компоненты, например, паузы между словами) и другие параметры. Затем на основе этих акустических характеристик синтезатор речи создавал аудиосигнал.

Пример речи, которую синтезировали при помощи новой системыUCSF Neurosurgery / Youtube.

Синтезированные таким образом слова и целые предложения ученые давали послушать добровольцам, которых набрали на сайте Amazon Mechanical Turk. Те должны были записать, что они слышат, выбирая заранее предложенные слова из списка в 25 или 50 слов. Всего в тесте участвовало 1755 участников, которые выполняли 16 разных заданий. Они правильно разобрали 43% слов в том случае, когда выбирать надо было из 25, и 21% слов, если выбирать приходилось из 50 вариантов. Как и в случае с обычной живой речью, понять слово было тем проще, чем оно было длиннее.

Дальнейшие тесты своего декодера ученые проводили на одном человеке, который не только произносил слова вслух, но и просто повторял мимические движения, не произнося при этом ничего. Во втором случае система тоже справлялась с расшифровкой слов, хотя и хуже, чем тогда, когда люди говорили вслух.

Хотя расшифровка речи с помощью новой системы еще далека от идеала, они считают, что продвинулись в создании устройств, которые будут дешифровать речь прямо из мозга в реальном времени, что позволит парализованным пациентам общаться в естественном темпе и к тому же передавать интонации и другие элементы речи, недоступные при ее наборе на экране монитора.