Адаптивный синтез речи вместо типичного ИИ: что это, для чего и как работает

Некоторые клиенты Voicebox хотят, чтобы бот говорил особенным голосом. Что ж, раз нужно — значит, можно, и скоро адаптивный синтез будет доступен для всех. Пока же мы экспериментируем с голосами в тестовом режиме, и кое-чем я хочу поделиться с вами в этой статье.

Что такое адаптивный синтез

Под адаптивным синтезом понимается простая вещь: генерация голоса на основе представленных образцов речи. Тот, кто хочет, чтобы бот говорил его голосом, записывает определенное количество фраз, на основе которых программа создаст голосового бота. Часть слов будут переменными, то есть заменяемыми. И эти переменные, которые будут использоваться в речи, программа синтезирует на основе записанных фраз. Причем так, что голос будет звучать практически не отличимо.

Почему это важно

Главная проблема роботов в том, что люди не хотят с ними общаться. Как только большинство людей понимают, что говорят с роботом, они бросают трубку. Один из выходов в таком случае — просто надиктовать все нужные фразы. Но что если этих фраз сотни и тысячи? Уже запись одних только имён и отчеств затянется надолго. А ведь есть ещё суммы, товары и адреса, как в предыдущем примере.

Тут-то и приходит на выручку адаптивный ИИ, генерирующий переменные тем же голосом, что и диктор. В результате распознать робота становится куда сложнее. На примерах ниже вы в этом убедитесь. И потому существенно снижается и количество отказов. Кроме того, отпадает необходимость в записи тысяч слов и фраз, что тоже выгодно заказчику.

Да, развитие ИИ привело к появлению широкого спектра инструментов преобразования текста в речь (TTS). Но они уже давно не инновация. Максимум генераторов TTS вроде Murf.ai, Beyondwords, Play.ht, Lyrebird AI, Lovo.ai, Speechify — помочь в разработке голосовых помощников и озвучке текста, но сделать его человечнее такими средствами невозможно.

ChatGPT, DALL-E и VALL-E

После бурного спроса на ChatGPT некоторые умельцы сделали гайды по добавлению к нему функций озвучки. И, конечно, стоило ожидать появления VALL-E. Это инструмент Microsoft для того же TTS, но который может имитировать голос человека. Как уверяют, ему достаточно взять трёхсекундную запись чьего-то голоса, и он готов воспроизвести его, превратив любые написанные слова в речь с реалистичной интонацией и эмоциями.

Сервис анонсировали в январе, но он пока недоступен для публичного использования, хотя, вполне вероятно, его можно использовать для генерации любого текста из любого голоса.

VALL-E базируется на технологии EnCodec, её представили в октябре 2022 года. На GitHub уже есть неофициальная PyTorch-реализация VALL-E на этом токенизаторе.

В отличие от иных средств, VALL-E генерирует дискретные коды аудиокодеков на основе подсказок фонем и акустических кодов. Технологию можно комбинировать с GPT-3. По сути, VALL-E анализирует звук человека, далее EnCodec помогает разбить её на дискретные компоненты («токены») и при помощи обучающих данных пытается представить другие фразы с тем же голосом.

Как это работает у Voicebox

Мы уже работаем над внедрением таких решений в бизнес. Для адаптивного синтеза в Voicebox мы выбрали перспективную технологию Brand Voice Call Center. Её преимущество перед другими в том, что речь генерируется целиком, это не склейка заранее записанных шаблонов и переменной части. И при этом она лучше справляется, например, с генерацией интонаций, делая речь более живой.

Есть, конечно, и маленькое ограничение. Для синтеза нужны короткие тексты: фразы стоит дробить, стараться не доводить их до 24 секунд, а длина фразы не должна превышать 250 символов вместе с переменной частью.

Для робота в нашем случае достаточно нескольких фраз. Модель SpeechKit Brand Voice копирует голос из шаблона (аудиофайла, в котором диктор произносит определённую фразу) и озвучивает переменную часть. Результат — синтезированные цельные предложения вместо склейки голоса диктора и стандартного голоса робота.

А теперь давайте я покажу, как работает адаптивный синтез, а затем расскажу вкратце, почему он так важен для компаний.

Примеры

Возьмем пару наших сценариев, которые мы описывали в предыдущих статьях, и посмотрим, как синтезирует переменные бот. Синтезированные записи доступны по ссылке.

Сценарий №1. Секретарь

Взяли следующие фразы для озвучивания:

Здравствуйте, представьтесь, пожалуйста! Очень приятно, {name}! Вы хотите оставить сообщение для директора? Слушаю Вас, {name}, говорите!

Синтезировали несколько вариантов для переменной:

{name} 1) Виктор Сергеевич 2) Анна Евгеньевна 3) Антон Антонович

Сценарий №2. Менеджер интернет-магазина

Взяли следующие фразы для озвучивания:

Добрый день, {name}! Вы оформили у нас заказ на сумму {amount} рублей. В заказ входят следующие товары: {order}.
Мы доставим заказ по адресу {address}. Спасибо, {name}! Заказ будет доставлен вам {day}, в {time}.

Синтезировали следующие варианты для нескольких переменных:

{name} 1) Илья Юрьевич 2) Андрей Петрович
{amount} 1) семь тысяч восемьсот 2) девятнадцать тысяч пятьсот
{order} 1) свитер 2) кеды
{address} 1) улица Ленина, дом один, квартира два, 2) улица Счастливая, дом пять, квартира двенадцать
{day} 1) первого апреля 2) пятого декабря
{time} 1) десять часов 2) двадцать часов

Точно так же робот сможет озвучить и любые другие слова и фразы, записанные в переменные заранее или по ходу диалога.

Вместо заключения

Итак, что мы получаем, используя технологию адаптивного синтеза? Две важные вещи:

Персонализация. Адаптивный синтез речи позволяет генерировать фразы, уникальные для каждого клиента. Благодаря этой технологии бот сможет обращаться к каждому по имени-отчеству, расскажет о заказе, назовет время доставки. При этом человек даже не всегда заметит, что разговаривает с роботом, что сделает общение более естественным и приятным и, конечно, снизит количество отказов.
Сокращение затрат. Адаптивный синтез речи может существенно снизить затраты на озвучивание контента для магазина или сервиса. Он позволяет быстро генерировать естественное озвучивание, без ограничений по количеству позиций каталога, имен и так далее. Представим, сколько времени уйдёт на озвучивание диктором тысяч фраз, а с адаптивным синтезом достаточно записать несколько образцов речи.

Таким образом, адаптивный синтез повышает лояльность клиентов и помогает существенно снизить затраты, особенно временные.

Автор: Роман Андреев

Источник: https://habr.com/ru/companies/mtt/articles/741334/

Вернуться к списку

Интересные статьи

«Ничего не хочу. Я неудачник!»: Как справиться с депрессией

«Ничего не хочу. Я неудачник!»: Как справиться с депрессией5% взрослых во всем мире, по данным ВОЗ, страдают клинической депрессией. В настоящий момент депрессивное состояние переживают 280 миллионов ...

Фрод: что это, откуда берется и как бороться

Фрод — язва электронной коммерции. Любая компания, которая принимает платежи на своем сайте, рано или поздно сталкивается с проблемой фрода и несет от него убытки. Чтобы оградить себя от фрода нужно п...

Как живется и работается в карантине в Барселоне

С конца прошлой недели наша PR-директор Таня Комарова оказалась в ситуации, когда карантин на работах и в школах носит уже не добровольный, а обязательный характер. Мы поговорили с ней о том, что...

Blended-тренинг — что такое и как работает

Современность предлагает нам два формата обучения: классический и онлайн. Оба популярны, но не идеальны. Мы попытались разобраться в минусах и плюсах каждого из них и вывести формулу эффектив...

Зубная фея тут не работает: структура эмали зубов крокодилов и их доисторических предков

Вы заходите в коридор с приглушенным светом, в нем вам встречаются обездоленные души, терзаемые болью и страданиями. Но им не будет тут покоя, ибо за каждой из дверей их ждет еще больше мук и...