Инсульт, черепно-мозговая травма и нейродегенеративные заболевания, такие как болезнь Паркинсона, рассеянный склероз и боковой амиотрофический склероз (БАС или болезнь Лу Герига), часто приводят к необратимой потере способности говорить. Некоторые люди с серьезными нарушениями речи учатся излагать свои мысли по буквам с помощью вспомогательных устройств, отслеживающих очень маленькие движения глаз или лицевых мышц. Однако создание текста или синтезированной речи с помощью таких устройств является трудоемким, подверженным ошибкам и мучительно медленным процессом, обычно разрешая максимум 10 слов в минуту, по сравнению с 100-150 слов в минуту естественной речи.
Новая система, разрабатываемая в лаборатории доктора медицины Эдварда Чанга и описанная 24 апреля 2019 года в журнале Nature, демонстрирует возможность создания синтезированной версии голоса человека, которым можно управлять с помощью активности речевых центров его мозга.
Авторы утверждают, что в будущем этот подход может не только восстановить свободное общение для людей с серьезными нарушениями речи, но и воспроизвести некоторую музыкальность человеческого голоса, который передает эмоции и личность говорящего.
«Это исследование впервые демонстрирует, что мы можем генерировать целые речевые предложения на основе активности мозга человека», – сказал Чанг, профессор неврологической хирургии и член Института нейробиологии UCSF Weill. "Это воодушевляющее доказательство принципа того, что с технологией, которая уже доступна, мы сможем создать устройство, которое будет клинически жизнеспособным для пациентов с потерей речи."
Виртуальный голосовой тракт улучшает естественный синтез речи
Исследованием руководили Гопала Ануманчипалли, доктор философии, речевой специалист, и Джош Чартье, аспирант биоинженерии в лаборатории Чанга. Он основан на недавнем исследовании, в котором пара впервые описала, как речевые центры человеческого мозга управляют движениями губ, челюсти, языка и других компонентов голосового тракта для создания плавной речи.
Из этой работы Ануманчипалли и Шартье поняли, что предыдущие попытки напрямую расшифровать речь, исходя из активности мозга, могли иметь ограниченный успех, потому что эти области мозга не отражают напрямую акустические свойства звуков речи, а скорее инструкции, необходимые для координации движений мозга. рот и горло во время речи.
«Взаимосвязь между движениями речевого тракта и производимыми звуками речи является сложной», – сказал Ануманчипалли. "Мы рассудили, что если эти речевые центры в мозгу кодируют движения, а не звуки, мы должны попытаться сделать то же самое при декодировании этих сигналов."
В своем новом исследовании Ануансипали и Шартье попросили пятерых добровольцев, проходящих лечение в Центре эпилепсии UCSF – пациентов с неповрежденной речью, которым были временно имплантированы электроды в мозг для картирования источника их припадков при подготовке к нейрохирургии – прочитать несколько сотен предложений. вслух, пока исследователи регистрировали активность области мозга, которая, как известно, участвует в языковом производстве.
Основываясь на аудиозаписях голосов участников, исследователи использовали лингвистические принципы для реинжиниринга движений голосового тракта, необходимых для воспроизведения этих звуков: сжимание губ здесь, сужение голосовых связок там, смещение кончика языка к крыше рот, затем расслабить его и т. д.
Это подробное сопоставление звука и анатомии позволило ученым создать реалистичный виртуальный голосовой тракт для каждого участника, которым можно было управлять с помощью активности их мозга. Он включал в себя два алгоритма машинного обучения «нейронной сети»: декодер, который преобразует модели активности мозга, возникающие во время речи, в движения виртуального речевого тракта, и синтезатор, который преобразует эти движения речевого тракта в синтетическое приближение голоса участника.
Исследователи обнаружили, что синтетическая речь, производимая этими алгоритмами, была значительно лучше, чем синтетическая речь, непосредственно декодированная на основе мозговой активности участников, без включения моделирования речевых трактов говорящих.
Алгоритмы выдавали предложения, понятные сотням слушателей, в краудсорсинговых тестах транскрипции, проводимых на платформе Amazon Mechanical Turk.
Как и в случае с естественной речью, расшифровщики были более успешными, когда им давали более короткие списки слов на выбор, как в случае с лицами, осуществляющими уход, которые подготовлены к типам фраз или просьб, которые пациенты могли бы произнести.
Транскриберы точно идентифицировали 69 процентов синтезированных слов из списков из 25 альтернатив и переписали 43 процента предложений с безупречной точностью. Из-за более сложных 50 слов на выбор общая точность расшифровщиков упала до 47 процентов, хотя они все еще могли прекрасно понимать 21 процент синтезированных предложений.
«У нас все еще есть способы идеально имитировать разговорный язык», – признал Шартье. «Мы неплохо синтезируем более медленные речевые звуки, такие как« ш »и« з », а также сохраняем ритмы и интонации речи, а также пол и идентичность говорящего, но некоторые из более резких звуков, таких как« би »и« п », становятся немного нечетко.
Тем не менее, уровень точности, который мы здесь достигли, был бы потрясающим улучшением в общении в реальном времени по сравнению с тем, что доступно в настоящее время."
Развитие искусственного интеллекта, лингвистики и нейробиологии
В настоящее время исследователи экспериментируют с решетками электродов более высокой плотности и более продвинутыми алгоритмами машинного обучения, которые, как они надеются, еще больше улучшат синтезируемую речь. Следующим важным тестом для технологии является определение того, может ли человек, не умеющий говорить, научиться пользоваться системой, не имея возможности обучать ее на собственном голосе, и сделать ее обобщением для всего, что они хотят сказать.
Предварительные результаты одного из участников исследования показывают, что система исследователей, основанная на анатомии, может декодировать и синтезировать новые предложения, исходя из активности мозга участников, почти так же, как предложения, на которых был обучен алгоритм. Даже когда исследователи предоставили алгоритму данные о мозговой активности, записанные, в то время как один из участников просто произносил предложения без звука, система все равно могла воспроизводить понятные синтетические версии имитированных предложений в голосе говорящего.
Исследователи также обнаружили, что нейронный код голосовых движений частично накладывается на участников, и что имитация голосового тракта одного объекта исследования может быть адаптирована для ответа на нейронные инструкции, записанные из мозга другого участника.
В совокупности эти результаты предполагают, что люди с потерей речи из-за неврологических нарушений могут научиться управлять речевым протезом, смоделированным на основе голоса человека с неповрежденной речью.
«Люди, которые не могут двигать руками и ногами, научились управлять роботизированными конечностями с помощью своего мозга», – сказал Шартье. "Мы надеемся, что однажды люди с дефектами речи смогут снова научиться говорить, используя этот искусственный голосовой тракт, управляемый мозгом."
Ануманчипалли добавил: «Я горжусь тем, что нам удалось объединить опыт нейробиологии, лингвистики и машинного обучения в рамках этой важной вехи на пути к помощи пациентам с неврологическими недостатками."