Последние Обновления Моделей Распознавания Речи из Silero Models

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

quality_growth


Мы опубликовали уже пятую версию наших моделей для распознавания английского языка и четвертую — для немецкого. На картинке выше — прогресс роста качества для английского языка.


В этот раз мы можем порадовать вас:


  • Как большими, так и маленькими моделями;
  • Постоянным ростом качества на всех доменах аудио, снижением размера и ускорением моделей;
  • Как обычно — качество на уровне премиум моделей Google (причем в этот раз к премиум моделями 2020 года подобрались уже даже маленькие Community Edition модели);
  • Супер компактными моделями (small и скоро ожидается xsmall) и их квантизованными версиями;

Модель PyTorch ONNX Качество Colab
Английский (en_v5) link Open In Colab
Немецкий (de_v4) link Open In Colab

jit jit jit jit jit_q jit_q onnx onnx onnx
xsmall small large xlarge xsmall small small large xlarge
Английский en_v5
Немецкий de_v4

Вы можете найти наши модели в нашем репозитории вместе с примерами и метриками качества и скорости. Мы также постарались сделать начало работы с нашими моделями как можно более простым — мы выложили примеры на Colab и чекпойнты для PyTorch, ONNX (TensorFlow мы перестали поддерживать).


Проект silero-models почти набрал на Github тысячу звездочек, помогите нам преодолеть эту психологическую планку!


Достигнутые вершины, дальнейшие планы и чего мы не сделали


Для начала распишу, чего сделать не получилось:


  • Сделать модели такого же качества для ряда других планируемых языков (ряд славянских языков, французский язык). На самом деле французский и обновления для испанского были более менее готовы, но нам не хватило фокуса их опубликовать и довести до конца. Плюс на эти языки мы не видели спроса заказчиков, в отличие от русского, английского и немецкого;
  • Сделать такую же широкую палитру моделей не только для английского языка;

А вот эти вещи получилось сделать:


  • Создать палитру моделей для английского языка разных размеров;
  • Постоянно улучшать качество и скорость моделей с каждым релизом на всех доменах;
  • Существенно ускорить модели и снизить их размер (за деталями — прошу в вики проекта или просто протестируйте модели сами);
  • Довести размер самой маленькой модели до 26 мегабайт и снизить количество параметров менее 20М;

В ближайших планах:


  • Продолжать работать над качеством;
  • Плановый статус апдейт по синтезу речи;
  • Опубликовать xsmall модель для английского языка;
  • Есть еще ряд идей, как сделать xsmall модель ее еще в 2-3 раза быстрее против прошлой (если считать на CPU) для английского языка без существенной потери качества. Она скорее всего будет примерно такого же размера;
  • Зарелизить модель для простановки знаков препинания и заглавных букв для четырех языков (русский, английский, немецкий, испанский);
  • Возможно еще получится снизить размер xsmall модели еще в 2 раза;

Почему это важно и почему сделать просто так сложно


Тут не хотел бы повторяться, я довольно подробно все расписал в первой статье на Хабре тут, с тех пор мало что поменялось.


Ссылки


Вы всегда можете поддержать наш проект, поставив звезду на Github или прямыми донатами:


  • Наши модели на Github;
  • Вики;
  • Метрики скорости;
  • Метрики качества;
  • Примеры на Colab;

Проект silero-models почти набрал на Github тысячу звездочек, помогите нам преодолеть эту психологическую планку!

Источник: https://habr.com/ru/post/577630/


Интересные статьи

Интересные статьи

Привет, Хабр! Представьте на секунду, что этот текст вы не пробегаете глазами, пока допиваете кофе, а слушаете в выбранной озвучке, лишь примерно представляя, как выглядит верстка страницы. Тем не м...
Продолжаем изучать Django Rest Framework с точки зрения новичка. Мы уже разобрали создание REST API для получения данных из БД, включая отдельную статью о работе сериалайзера. В этой с...
Всем привет! Не так давно на работе в рамках тестирования нового бизнес-процесса мне понадобилась возможность авторизации под разными пользователями. Переход в соответствующий р...
Мы все, так или иначе, сталкивались с пользователями, имеющими проблемы зрения. Отвечающие за UI, не важно сайта, мобильного приложения или любого другого софта, скорее всего, знают...
Получить трафик для интернет-магазина сегодня не проблема. Есть много каналов его привлечения: органическая выдача, контекстная реклама, контент-маркетинг, RTB-сети и т. д. Вопрос в том, как вы распор...