Нейросеть научили распознавать речь по губам при помощи алгоритма распознавания записи голоса

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!


Hal 9000 прекрасно читал по губам, правда, по-английски

Нейросети сейчас умеют многое, и постепенно их обучают все большему количеству умений. На днях стало известно о том, что объединенная команда исследователей из США и Китая смогла обучить нейросеть распознавать речь по губам с высокой степенью точности.

Добиться этого удалось благодаря дополнительному элементу — алгоритму распознавания речи по аудиозаписям. Далее алгоритм использовался в качестве обучающей системы уже для второго алгоритма, который распознавал речь по видеозаписям.

По мнению ученых, этот метод дает возможность освоить дополнительные приемы чтения по губам, которые нейросеть, обученная традиционными методами, не сможет «выучить». Простая последовательность изображений дает возможность освоить лишь базовые приемы чтения по губам.

Кроме того, разработчики использовали метод обучения нейросетей, который называется «дистилляцией знаний». Он позволяет сохранить небольшой размер модели, которая выполняет сложную задачу. В обычной ситуации нейросеть, которая умеет читать по губам, достигла бы значительных размеров, что затруднило бы ее использование на смартфонах или иных мобильных устройствах.

Но модель, которая называется knowledge distillation, дает возможность убрать эти ограничения. В ходе работы с этой моделью разработчику необходимо использовать базовую нейросеть, которая уже обучена, и на ее основе создает значительно меньшую модель, которая «обучается» на основе первой. Обе сети получают практически аналогичные исходные данные. Но меньшая сеть пытается повторить результаты большей, как на выходном слое, так и на всех промежуточных. Впервые идея была представлена Каруана (Caruana) в 2006 году.

Ученые под руководством Минли Сун (Mingli Song) из Чжэцзянского университета воспользовались «дистилляцией» для обучения нейросети чтению по губам. Как и говорилось выше, учителем здесь является алгоритм распознавания речи по аудиозаписи. Он предоставляет широкие возможности для изучения ряда малозаметных движений губ и паттернов речи.



Итоговая схема является симметричной, с двумя рекуррентными нейросетями, расположенными параллельно друг другу. Одна сверточная нейросеть обрабатывает кадры видео и предоставляет данные для другой. Исследователем осталось только представить дистилляцию знаний в виде нескольких блоков, каждый из которых отвечал за конкретную задачу. Один из них — за кадр, второй — за последовательность данных, третий — за наибольшую общую последовательность.

Конечно, для нормальной работы такая нейросеть требует тщательного обучения на десятках тысячах элементов. Ученые воспользовались датасетом LRS2, который содержит около 50 тысяч отдельных предложений, произнесенных дикторами BBC, а также датасетом CMLR — это самый объемный набор для обучения нейросетей читать по губам на мандаринском языке. В базе последнего содержится около 100 тысяч предложений из эфира телеканала CNTV.



Точность распознавания получившейся в итоге системы примерно на 8% выше, чем у других нейросетей, которые обучали на CMLR, и на 3% лучше, чем у нейросетей, которые обучались на LRS2.
Источник: https://habr.com/ru/company/madrobots/blog/479092/


Интересные статьи

Интересные статьи

Первый в мире жесткий диск, IBM RAMAC 305, увидевший свет в 1956 году, вмещал лишь 5 МБ данных, а весил при этом 970 кг и по габаритам был сопоставим с промышленным рефрижератором. Совр...
Группа ученых из Массачусетского технологиечского университета разработали установку получения энергии из воздуха. Правда, есть обязательное условие — наличие в воздухе влаги. Основной рабочи...
Мы привычно пользуемся интернет-поиском, общаемся с чат-ботами, читаем документы на любых языках благодаря переводчикам. Приказать роботу-пылесосу начать уборку при помощи голоса? Ничего особенно...
Как-то у нас исторически сложилось, что Менеджеры сидят в Битрикс КП, а Разработчики в Jira. Менеджеры привыкли ставить и решать задачи через КП, Разработчики — через Джиру.
Получить трафик для интернет-магазина сегодня не проблема. Есть много каналов его привлечения: органическая выдача, контекстная реклама, контент-маркетинг, RTB-сети и т. д. Вопрос в том, как вы распор...