Google создала базу из тысячей записей синтезированной речи

Суббота, 2 февраля 2019

Похоже, в ближайшем будущем человеческое общение будет сведено к минимуму. По крайней мене все к этому идет: вот в Google, например, смогли собрать базу данных из тысячей записей синтезированной английской речи, сообщается в блоге компании. Таким образом специалисты еще на один шаг приблизились к тому, чтобы система могла воспроизводить устную речь, которая будет неотличима от человеческой.

Синтез речи нужен для формирования речевого сигнала из печатного текста, причем совсем необязательно, чтобы человек, который записывает свой голос для системы, говорил все фразы целиком. Для конечной модели достаточно репрезентативной выборки данных — а дальше система сама определяет, сколько фонем ей необходимо для дальнейшего синтеза.

Зачем записи речи собрали в единый масштабный датасет? Дело в том, что если качественный синтез окажется в руках злоумышленников, они могут использовать чужой голос в собственных корыстных целях. Чтобы этого не допустить, эксперты Google опубликовали базу из несколько тысяч отрывков из газет. Для чтения использовалось 68 разных синтезированных голосов. Правда, пока массив данных доступен только для участников конкурса Automatic Speaker Verification. Они занимаются созданием систем, позволяющих автоматически отличить синтезированную речь от реальной.

Два года назад компания Lyrebird из Монреаля создала речевой синтезатор на основе ИИ, способный воспроизвести любой голос. Для подражания голосу системе достаточно лишь нескольких секунд аудиозаписи голоса требуемого человека, на основе которых и будет создан звуковой фрагмент. Точное подражание голосу возможно благодаря использованию нейронных сетей на основе искусственного интеллекта, работающих по тем же принципам, что нейронные сети человеческого мозга. ИИ учится распознавать особенности речи человека, а затем эти данные уже используются для синтеза искусственного голоса.

Правда, и там ест недостатки: есть проблемы с разборчивостью произносимой речи, присутствуют «голосовые артефакты» и некоторые другие признаки, указывающие на то, что слова произносит машина.

НАВЕРХ