Бесплатное распознавание речи для всех желающих

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Бесплатное Распознавание Речи Для Всех Желающих
- Как Пользоваться
- Идея Сервиса
- Текущие Ограничения
- Безопасность и Использование Данных

Бесплатное распознавание речи для всех желающих

После относительно недавнего релиза мы сделали наше распозавание речи бесплатным для всех индивидуальных пользователей на страничке по адресу — https://audio-v-text.silero.ai/.

Да, вы не ослышались. Это не шутка, не очередная кампания по продаже "шпионских" гаджетов, не альтруизм и не обман:

Да, сервис сделан для простых людей, и там есть разумные ограничения на объем, перепродавать не получится (а если у кого-то получится, то нам придется или закрутить все сильнее, или закрыть сервис).
Да, мы предприняли разумные меры, чтобы сделать все безопасным как для нас, так и для пользователей.
Да, этот сервис будет бесплатным.
Да, мы полностью независимы и никак не аффилированы с теми самыми компаниями (если вы понимаете, о чем я).

Как Пользоваться

Инструкция простая до банальности:

зайти на страничку,
опционально попробовать демку с микрофоном,
залить свой файл в формочку,
получить распозанный файл на email.

По идее должно работать во всех основных браузерах. Рекомендуется заходить с ноутбука или десктопа, но и со смартфона в принципе тоже должно работать.

Не лишним будет упомянуть: правильно указывая, из какого домена (какого типа) ваше аудио, вы поможете повысить качество распознавания вашего аудио.

Идея Сервиса

Если сейчас обычному физическому лицу нужно что-то транскрибировать, то на рынке есть опции:

Есть решения, требующие регистрации, оплаты, создания личного кабинета.
Есть ограниченное количество корпоративных решений, которые, по очевидным причинам, тоже не закрывают этот случай.
Есть большое количество ML репозиториев, устаревших решений или поделок народных "умельцев". Но "обычный" пользователь вряд ли может ими воспользоваться.

Резюмируя: нет качественных решений для "маленьких"/одноразовых случаев использования (без геморроя и высокого порога входа). Мы решили это исправить. Будем признательны за вашу конструктивную обратную связь.

Текущие Ограничения

У сервиса в текущем виде есть ряд ограничений, часть которых решается технологически, а часть только процессуально:

Хотя мы можем разделять заранее известное количество говорящих, это не вошло в MVP сервиса.
Многоканальное аудио в MVP не разделяется и обрабатывается после усреднения каналов.
Наличие большого количества жаргона, англицизмов или очень редкой уникальной лексики негативно влияет на распознавание. Конечно это решается, но скорее уже в рамках отдельного проекта или с помощью ручной пост-обработки.
Чем лучше качество исходного аудио, тем лучше качество транскрибации.
На данный момент пунктуация и заглавные буквы автоматически в сервисе не проставляются, хотя мы в это умеем.
Для некоторых случаев, даже при хорошем качестве аудио и с учетом автоматической простановки знаков препинания, нужна пост-обработка людьми. Мы пока не предлагаем такой сервис.

Безопасность и Использование Данных

Мы используем лучшие из доступных нам инструментов. Мы шифруем трафик и данные. Мы блокируем ботов и пресекаем нецелевое использование.

Для любителей разоблачений и теорий заговора: основной целью сервиса является улучшение качества распознавания в конкретных доменах с использованием данных пользователей. По этой причине просим всех пользователей прочитать оферту и убедиться, что все посылаемые данные не содержат чувствительной или запрещенной информации. Мы не будем публиковать или делиться этими данными с третьими сторонами, но, естественно, подходите к своим и чужим данным ответственно и используйте сервис на свой страх и риск.

Только зарегистрированные пользователи могут участвовать в опросе. Войдите, пожалуйста.

Что нужно добавить в возможности сервиса?

33.33% Повышение лимитов 3

11.11% Добавление новых языков 1

77.78% Простановка знаков препинания 7

33.33% Автоматическое определение числа говорящих 3

11.11% Раздельное распознавание каналов в стерео-аудио 1

33.33% Возможность вручную указать число говорящих для раздельного распознавания в моно аудио 3

Проголосовали 9 пользователей. Воздержались 5 пользователей.

Источник: https://habr.com/ru/post/587512/

Вернуться к списку

Интересные статьи

Прикручиваем Twig к Битрикс, или ещё одна попытка скрестить ежа с ужом

Рано или поздно, каждый пэхапешник, пишущий на битриксе, начинает задумываться о том, как бы его улучшить, чтобы и всякие стандарты можно было соблюдать, и современные инструменты разработки использов...

Версионирование API или единая кодовая база для всех версий

За 21 год существования в SuperJob разработали три версии реализации API для интеграций с бэкендом. Во время разработки последней они решили пересмотреть подход к версионированию. Сейчас в актуальной ...

Обновление PHP в окружении BitrixVM с использованием Docker

ВведениеВ данной статье я бы хотел рассмотреть проблему обновления PHP в виртуальной машине BitrixVM, и действия, которые возможно применить если выполнение переезда на машину с обновленным ПО невозмо...

SberCloud + Intel oneAPI = бесплатное облако для ML-разработчиков

На прошедшей 20 мая первой технологической конференции Сбера для разработчиков SmartDev был анонсирован ряд инициатив и продуктов компании, в последнее время активно развивающейся в о...

Перечислимый тип и PostgreSQL

Пролог Под перечислимым типом обычно понимают тип данных, который может принимать ограниченное и, как правило, небольшое число значений. Его выделяет то, что эти значения часто хардкод...