Блог
Речевые технологии. Часть 1. Text-to-Speech: как работает синтез речи

Речевые технологии. Часть 1. Text-to-Speech: как работает синтез речи

2020-10-20 08:02:31

25021

Технологии распознавания и синтеза речи постоянно совершенствуются. Голосовые роботы уже берут на себя большую часть рутинных задач колл-центров, а ИИ способен не только понимать человеческую речь и распознавать эмоции, но и поддерживать разговор. Теперь в процессе общения по телефону отличить робота от человека бывает очень трудно. Все это делает жизнь людей проще, но речевые технологии созданы не для развлечения. Это инструмент бизнеса, который позволяет ему работать более эффективно.

Начнем погружение в речевые технологии с синтеза речи. Рассказываем, что такое технология Text-to-Speech и как она работает.

Что такое синтез речи

Синтез речи или Text-to-Speech (TTS) — технология преобразования текста в речь. Это компьютерное моделирование человеческой речи из текстового представления при помощи методов машинного обучения. Обычно синтез речи используют разработчики для создания голосовых роботов, например, IVR (интерактивный голосовой ответ).

Синтез речи экономит время и деньги бизнеса, так как генерирует звук автоматически и этим избавляет компанию от ручной записи (и перезаписи) аудиофайлов.

Благодаря синтезу речи можно прочитать любой текст голосом, максимально похожим на естественный. Чтобы сделать синтезированную речь натуральной, необходимо отточить ее тембр, плавность звучания, расстановку ударений и пауз, интонацию и другие области.

Для этого используются два подхода:

Конкатенативный — склейка фрагментов записанного аудио. Эта синтезированная речь имеет высокое качество, но требует большого объема данных для машинного обучения.
Параметрический — построение вероятностной модели, которая подбирает акустические свойства звукового сигнала для данного текста. С помощью этого подхода можно создавать речь, практически не отличимую от человеческой.

Как работает Text-to-Speech

Чтобы преобразовать текст в голос, система должна пройти три этапа: преобразовать текст в слова, выполнить фонетическую транскрибацию и преобразовать транскрибацию в речь.

1. Преобразовать текст в слова

Специальный алгоритм должен подготовить текст и преобразовать его в удобный формат для чтения. Проблема в том, что исходный текст помимо слов содержит числа, сокращения, даты и пр. Такие компоненты необходимо расшифровать и записать словами. Затем алгоритм разделяет текст на отдельные фразы, которые потом система прочитает с подходящей интонацией. Для этого при создании фраз робот ориентируется на пунктуацию и устойчивые конструкции в тексте.

2. Выполнить фонетическую транскрибацию

После того, как алгоритм разбил текст на фразы, ему необходимо выполнить фонетическую транскрибацию. Каждое предложение можно произносить по-разному в зависимости от смысла и эмоциональной окраски текста. Более того, даже одно слово может читаться разными способами. Чтобы понять, как произносится каждое слово и где именно ставить ударение, система использует встроенные словари. Если необходимое слово в них отсутствует, компьютер строит транскрибацию самостоятельно, используя академические правила. Если это тоже не помогает, то алгоритм опирается на записи дикторов и определяет, на каких частях слов они делали акценты.

Затем система рассчитывает, сколько в составленной транскрибации фрагментов длиной 25 миллисекунд. Каждый фрагмент она описывает различными параметрами: частью какой фонемы он является, какое место в ней занимает, в какой слог входит эта фонема и др. После этого система воссоздает подходящую интонацию с помощью данных о фразах и предложениях.

Фонема — минимальная единица звукового строя языка.

Преобразовать транскрибацию в речь

Чтобы прочитать подготовленный текст, система использует акустическую модель. Она устанавливает связь между фонемами и звуками, придавая им верную интонацию благодаря машинному обучению. Чтобы что-то сказать, робот использует генератор звуковых волн, в который загружаются все данные о частотных характеристиках фраз, полученные от акустической модели.

Как синтез речи используется в бизнесе

Синтез речи можно применять в следующих областях:

Интеллектуальный IVR. Настройка голосового робота для того, чтобы он отвечал на запросы клиентов без привлечения живых операторов.
Голосовые оповещения. Возможность доставлять важные уведомления своим клиентам по всему миру на их родном языке с помощью телефонных звонков.
Озвучивание контента. С помощью синтеза речи можно озвучивать книги, SMS-сообщения, документы и сайты. Это упрощает задачу автоматизации в процессе создания контента для людей, у которых есть проблемы с чтением и письмом (например, нарушение зрения) или для тех, кому неудобно читать текст в данный момент и кто готов прослушать необходимую информацию.
Создание голоса бренда. Искусственный интеллект может не только сэкономить деньги и время компании, но и стать ее фишкой. Искусственному голосу можно придать свой собственный характер, который будет ассоциироваться с брендом.
Голосовые ассистенты. Голосовое управление упрощает все повседневные задачи людей: заказать ужин, купить товары и пр. Поэтому синтез речи используется при создании таких голосовых помощников, как Siri, Алиса, Маруся и других.
Локализация обращений. Для международной компании достаточно затратно нанимать сотрудников, владеющих разными языками. В этом случае синтезированная речь выгоднее бизнесу, так как ее достаточно перевести на другой язык.
Скрининг соискателей. Синтез речи можно использовать для автоматизации массового найма сотрудников. С помощью голоса можно проводить собеседования и отбирать кандидатов.

Например, компания KFC настроила автоматическую верификацию заявок HR с помощью Voximplant. HR-департамент KFC загружает в свою CRM-систему список телефонных номеров кандидатов и текст вакансии. Voximplant делает несколько попыток дозвона. После успешного соединения робот спрашивает, интересно ли получить информацию о работе (синтез речи). Если кандидат ответил утвердительно (распознавание речи), робот рассказывает о вакансии и ставит в очередь к сотруднику колл-центра. До начала разговора сотрудник KFC получает информацию о соискателе в текстовом виде.

Поддержка пользователей. Большинство колл-центров автоматизируют обращения. Голосовые роботы выполняют простые задачи, которые можно автоматизировать. Например, предоставить клиенту информацию об аккаунте, дать инструкцию по решению типичной проблемы и пр. Это помогает людям сконцентрироваться на более сложных проектах.
Голосовые уведомления. Голосовые роботы могут обзванивать клиентов для того, чтобы уведомлять их о новых акциях и рекламных предложениях или проводить опросы для сбора маркетинговой информации.

Например, компания «КЛЮЧАВТО» с помощью Voximplant настроила автоматизированный сбор обратной связи клиентов по итогам покупки автомобиля и прохождения ТО. Робот приветствует клиента по имени и просит оценить ряд критериев по шкале от 1 до 10. Развернутые ответы транскрибируются и сохраняются в текстовом виде.

Решение от Voximplant

Voximplant предоставляет API, позволяющий легко интегрировать функциональность TTS в свое приложение или веб-сайт. Компании используют TTS для обработки входящих и исходящих вызовов, а также для управления голосовыми уведомлениями, при этом не требуется никакого оборудования или сложного программирования.

Voximplant поддерживает TTS на базе таких сервисов, как Amazon Polly, Google WaveNet, Dialogflow, IBM Watson, Яндекс SpeechKit, Tinkoff VoiceKit и Microsoft Azure. WaveNet также используется онлайн-сервисами Google: Google Assistant, Google Search и Google Translate. WaveNet генерирует необработанные аудиосигналы с помощью нейронной сети, обученной на большом количестве речевых образцов. Вся необходимая информация для генерации речи хранится в параметрах модели, а тон голоса можно контролировать с помощью настроек модели.

Особенности решения от Voximplant:

Многоязычность: широкий охват различных языков, включая американский и британский английский, китайский, арабский и другие.
Движок WaveNet, который можно использовать для обучения бота в соответствии с потребностями бизнеса.
Естественные голоса: мужские и женские голоса высокого качества.

Бизнесу из любой сферы интересен ИИ, который может не просто озвучивать текстовые фрагменты, но и синтезировать их. Все это осуществимо благодаря машинному обучению. Но система синтеза речи должна также уметь подбирать интонацию, правильно расставлять ударения и паузы, различать слова-омографы (например, «замОк» и «зАмок»). Это непростая задача, поэтому для создания полноценной системы синтеза речи помимо компьютера может потребоваться большая команда специалистов.

Речевые технологии. Часть 1. Text-to-Speech: как работает синтез речи

Что такое синтез речи