Голосовые технологии ~ Беседуем с основателем платформы CyberVoice

С каждым днём голосовые технологии внедряются в нашу жизнь всё больше и больше. В течение нескольких десятков лет развитие голосовых технологий не выходило за рамки научных исследований, однако уже сегодня в такси нас приветствует голосовой помощник, а навязчивые компании используют голосовых ботов для распространения рекламы.

Уже сейчас голосовые технологии становятся доступны обычным пользователям, а не только крупным корпорациям. Каждый может себе позволить креативно поздравить друзей с праздниками, создать напоминалки с голосами любым актеров или создать свою инди-игру без лишних трат на актёров озвучки.

Освящая тему голосовых технологий хотелось бы поговорить с основателем платформы CyberVoice (предоставляющей услуги по синтезированию текста) Леонидом Дерикьянцем.

— Расскажите коротко о том, что такое CyberVoice? И чем занимается ваша лаборатория.

Mind Simulation - это научная лаборатория, где мы занимаемся исследованиями в области общего искусственного интеллекта. Лаборатория является членом Конфедерации лабораторий исследований искусственного интеллекта в Европе (CLAIRE) и соавтором книги под названием «Сильный искусственный интеллект: На подступах к сверхразуму».

Последнее время мы занимаемся тем, что “приземляем” наши научные достижения в конкретные продукты. Первым продуктом, который мы презентовали публично, стал проект CyberMind, в рамках которого мы “оживляем” НПС в играх, то есть формируем их цифровые личности, чтобы игроки могли общаться с ними за пределами сюжетных реплик.

CyberVoice стал вторым нашим продуктом. Изначально технология высококачественного синтезирования речи с клонированием голоса создавалась нами именно как голосовые связки для проекта CyberMind, чтобы “оживленные” персонажи общались тем же голосом, которым актёры записывали для него сюжетные реплики. Мы старались максимально приблизить звучание синтезированного аудио к настоящему голосу, чтобы игрок не чувствовал разницы между записанными и синтезированными репликами.

Получив результат синтеза речи, мы увидели, что такая технология может приносить пользу и использоваться как отдельный продукт, так мы пришли к тому, чтобы запустить CyberVoice.

— На платформе есть возможность оставить свой голос, чтобы его использовали другие люди. Автор голоса получает за это какие-то бонусы?

Да, такая возможность присутствует, но не все голоса создаются и попадают на платформу.

Каждый автор голоса получает роялти в размере 20% отчислений от объёма синтезированной речи его голосом. Тем самым мы предоставляем дикторам пассивную статью дохода и использование их голоса там, где их физическое участие невозможно или затруднено.

— Что надо сделать человеку, чтобы его голос всё же попал на платформу?

В первую очередь пользователю нужно пройти тестовое задание и записать пару предложений, чтобы мы смогли оценить качество звучания его оборудования, а также профессиональные навыки. Исключение могут составить авторы различного контента, например, youtube блогеры, так как особенность их речи - это и есть ключевое отличие канала. Такие авторы зачастую делают свои голоса приватными только для собственного пользования.

Бывают случаи, когда пользователи отправляют чужие голоса. Такие заявки не проходят модерацию, пользователь должен записать наши предложения, тем самым подтвердить, что это его голос.

Мы заинтересованы в том, чтобы на нашей платформе были только высококачественные голоса, будь это голос диктора или голос персонажа, следовательно проверку проходят только некоторые участники.

После того, как диктор прошел тестовое задание, мы предоставляем ему доступ в особую область платформы, где он видит инструкции и полный текст, который нужно прочитать и загрузить на платформу.

Как только эти действия выполнены, CyberVoice начинает “производство” нового голоса, процесс занимает примерно неделю, но голоса могут создавать параллельно, это не последовательный процесс. Как только голос будет помещен на платформу, автор имеет право открыть публично свой голос, чтобы все могли его использовать.

— Существует не так много платформ, которые предоставляют возможность синтезировать текст, можете рассказать чем вы отличаетесь от других разработчиков?

Во-первых, мы предоставляем значительно более высокое качество звука. Наши аудио синтезируются в 44.1kHz в формате wav, и скорость синтеза примерно в 8-10 раз быстрее реального времени, несмотря на высокое качество.

Мы не ограничиваем объём синтезируемого текста или количество проектов и скачиваний, а также честно считаем символы. Если вы синтезируете текст, а затем немного его измените, то списываются символы только за разницу. Конечно, постоянно синтезировать одно и то же аудио не получится. Если будет много повторений одного и того же аудио, то символы спишутся за весь текст.

И в отличии от других платформ мы выступаем в качестве площадки (маркетплейса), где авторы могут лицензировать свои голоса и зарабатывать на них. За счет этого на платформе можно найти различные по звучанию голоса.

Также каждый может попробовать бесплатно синтезировать аудио. Каждому новому пользователю будет доступно 5000 символов для того, чтобы оценить разные голоса и опробовать возможности платформы.

— Каждый тариф на платформе позволяет приобрести некоторое количество символов для синтезирования. Как рассчитывалась стоимость одного символа?

Единой формулы, по которой рассчитывалась стоимость одного символа, нет. Цена формировалась так, чтобы для конечного пользователя было выгоднее использовать нашу технологию. И при этом было важно сделать так, чтобы авторы голосов получали хорошие отчисления.

— Как вы считаете, где в наше время может пригодиться использование персонализированных голосов?

Количество контента, который необходимо озвучивать, растёт с каждым днём. У авторов физически нет возможности озвучивать весь контент. Например, сейчас набирают популярность аудиокниги, объем продаж которых в первом полугодии 2021 года вырос почти на 50%. Также не стоит забывать про озвучку донатов в реальном времени. Голосовые технологии могут разнообразить контент и сделать его более уникальным.

— Какие трудности возникали во время создания технологии CyberVoice?

Основной трудностью, с которой мы столкнулись, это сделать более высокое качество звука, нежели на рынке, плюс дополнительную сложность этому придавало то, что мы работаем без использования многочасовых датасетов.

Главной задачей было предоставить пользователям аудио более высокого качества в отличии от других платформ. При этом хотелось дать возможность большему числу авторов попасть на нашу платформу. Для этого пришлось искать пути, чтобы обучать новый голос всего лишь на 30-40 минутах аудио.

Также мы хотели отойти от работы с буквенным представлением текста и перейти на работу с фонемами напрямую, чтобы пользователь мог работать со звуками и более гибко настраивать звучание каждого отдельного звука.

И оптимизация, конечно же. Потребности рынка огромные, поэтому необходимо предоставлять больше возможностей при меньших вычислительных затратах.

— А какие у вас требования к оборудованию, используемому при обучении и использовании моделей? Реально ли, чтобы человек у себя дома на своём ПК оффлайн запустил модель?

Требования не высокие. Да, синтезирование оффлайн на обычном ПК возможно без потери качества и скорости, правда пока мы не предоставляем такую возможность и будем её предоставлять в конкретных кейсах, например, в видеоиграх.

— Какие у вас планы по развитию платформы и в целом по развитию синтеза речи на ближайшее время?

Что касается технологии синтеза речи, то самая ближайшая наша задача - это переложение голоса на другой язык без акцента. Например, чтобы голос человека, который никогда не говорил и не записывался на английском языке, синтезировался на английском с правильным произношением. Далее мы будем работать с эмоциональным окрасом.

А также сама платформа CyberVoice будет постепенно получать новые возможности в плане функционала, чтобы пользователи могли более гибко настраивать голоса под свои нужды.

Источник: https://habr.com/ru/post/590545/

Вернуться к списку

Интересные статьи

Полный обзор технологии селективного лазерного спекания в 3D-печати

В обзоре расскажем о SLS-3D-печати: технологии, сырье, сфере применения. Селективное лазерное спекание - разновидность аддитивного производства, на базе которой создают прототипы и рабочие детал...

Меньше кода – больше драйва: опыт применения low-code платформы в enterprise решении

В статье описана практика использования low-code систем в enterprise. Часто сталкиваемся с мнением, что подобный класс систем не способен адресовать быстро растущие аппет...

NFC: Разбор технологии Near Field Communication

Все мы привыкли к такой данности в смартфоне как NFC. И вроде бы всё с этим ясно. Многие не покупают смартфоны, где нет NFC, думая что это только про покупки. Но есть куча вопросов...

Надёжность Flash–памяти: ожидаемое и неожиданное. Часть 1. XIV конференция ассоциации USENIX. Технологии хранения файлов

Так как твердотельные накопители, основанные на технологии флэш-памяти, становятся основным средством постоянного хранения информации в дата-центрах, важно осознавать, насколько они надежны. На с...

Технологии хранения и защиты данных — третий день на VMware EMPOWER 2019

Продолжаем обсуждать технологические новинки, представленные на конференции VMware EMPOWER 2019 в Лиссабоне. Наши материалы по теме на Хабре: Главные темы конференции Отчет по итогам первог...