На сегодняшний день во многих системах синтеза речи используется подход вокодера, метод синтеза речевых сигналов, который широко используется в сетях сотовой связи и других приложениях. Однако качество речевых сигналов, синтезированных этими методами, оставалось ниже, чем у человеческого голоса.
В 2016 году влиятельная зарубежная технологическая компания предложила WaveNet – метод синтеза речи, основанный на алгоритмах глубокого обучения – и продемонстрировала способность синтезировать высококачественные речевые сигналы, напоминающие человеческий голос. Однако одним из недостатков WaveNet является чрезвычайно сложная структура ее нейронных сетей, которая требует больших объемов голосовых данных для машинного обучения и требует многократного повторения настройки параметров и различных других трудоемких процедур проб и ошибок, прежде чем можно будет делать точные прогнозы. полученный.
Одним из самых известных вокодеров является вокодер с фильтром источника, который был разработан в 1960-х годах и широко используется сегодня. Исследовательская группа NII объединила традиционный метод вокодера с фильтром источника с современными алгоритмами нейронных сетей, чтобы разработать новую технику для синтеза высококачественных речевых сигналов, напоминающих человеческий голос.
Среди преимуществ этого метода нейронного источника-фильтра (NSF) является простая структура его нейронных сетей, которые требуют всего около 1 часа голосовых данных для машинного обучения и могут получать правильные результаты прогнозирования без обширной настройки параметров. Более того, крупномасштабные тесты на прослушивание продемонстрировали, что формы речевых сигналов, генерируемые методами NSF, сопоставимы по качеству с сигналами, генерируемыми WaveNet.
Поскольку теоретическая основа NSF отличается от запатентованных технологий, используемых влиятельными зарубежными компаниями в области ИКТ, внедрение методов NSF, вероятно, будет стимулировать новые технологические достижения в синтезе речи. По этой причине исходный код, реализующий метод NSF, был предоставлен общественности бесплатно, что позволило его широко использовать.
Исходный код, обученные модели NSF и фактические образцы синтезированной речи NSF (как на японском, так и на английском языках) доступны на следующих сайтах:
Исходный код:
https: // github.com / nii-yamagishilab / project-CURRENNT-public
Обученные модели (могут быть выполнены для генерации англоязычных голосов):
https: // github.com / nii-yamagishilab / project-CURRENNT-scripts
Голосовые образцы (японский или английский):
https: // nii-yamagishilab.github.io / образцы-нсф / индекс.html