Считаем, где дешевле распознавание речи — в облаке или на своем сервере

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Когда вы выбираете ASR, важно определиться не только с вендором, но и с моделью закупки. Конечно, если вы банк, облачная система вам не подойдет по умолчанию. Но для всех остальных кейсов мы попробуем сделать расчет и определить, при каком объеме трафика будет выгоднее уже не платить за облако, а поставить решение в контур. 

 Посмотрим, сколько стоит распознавание в облаке у разных вендоров.

· Яндекс – 0,64 руб./минута.

· Тинькофф – от 0,18 руб./минута (оффлайн обработка файла) до 0,72 руб./минута  (онлайн обработка потока)

· Amvera – 2500 руб. в месяц за поток (запуск облачной версии по указанному тарифу намечен на ноябрь 2022 г.). При полной загрузке стоимость минуты будет 0,05 руб. С учетом резервирования и пиковой нагрузки, скорее всего, стоимость будет в 2 раза выше - 0,1 руб./минута 

· ЦРТ – 0,6 руб./минута

При поминутной тарификации вендоры имеют неприятную привычку «округлять» длительность в свою сторону. Однако это сильно влияет на стоимость только на коротких записях. Например, когда команды по 3 секунды округляются до 15 секунд.

Теперь возьмем стоимость on-premise решений. В открытом доступе таких данных нет, и, как правило, стоимость формируется индивидуально. Согласно нашим опросам, решение на 20 потоков (а меньше почти никто не лицензирует) стоит от 600 т.р. до 4 млн. руб. в год (в зависимости от вендора). Стоимость распознавания без ограничения по времени стоит от 1.2-1.5 млн.руб. до бесконечности. 

1 поток в год позволяет распознать от 1 до 2 миллиона минут (в зависимости от используемого процессора). Это достаточно много. Но на практике 1 поток никто из поставщиков решений лицензировать не будет. Как  правило, лицензируемый минимум - это 10-20 потоков и выше, в зависимости от вендора. Таким образом, on-premise позволит вам распознавать не менее 10-20 млн. минут в год при условии, что вы будете оптимально использовать вычислительную мощность.

 Таким образом, в пересчете на год, минимальная стоимость для 10 потоков составит около 300 т.р.. Дополнительно потребуется приобрести серверные мощности. Стоимость аренды недорогого сервера на 10-20 потоков составит еще около 120 т.р. в год (стоимость проверена на собственном опыте). Таким образом, стоимость владения on-premise решения начинается от 420 т.р. в год.

Сколько можно распознать на эти деньги в облаке?

Яндекс – 656 250 минут.

ЦРТ – 700 000 минут.

Тинькофф (для оффлайн распознавания) – 2,33 млн. минут.

Amvera – от 4.2 до 8.4 млн. минут (зависит от того, как эффективно грузить потоки).

Как и следовало ожидать, в облаке на те же деньги вы сможете распознать гораздо меньше минут, чем в контуре. 

Разумеется, разные решения дают разное качество распознавания и присутствуют иные факторы принятия решения. Но расчет помогает понять ценовые границы. 

 Вывод

Если у вас меньше 656 250 минут в год, облако будет дешевле в любом случае. Если больше 4.2 миллиона минут – облако будет дороже, чем решение в контуре (on-premise). В промежутке между этими цифрами облако может быть как дешевле, так и дороже, в зависимости от используемого ASR решения.

Бонус для дочитавших: телеграм бот @AmVeraSpeechBot. В боте вы можете проверить качество работы нашего решения по распознаванию речи (Amvera Speech). Просто отправьте в бот короткую аудиодорожку или голосовое сообщение – и получите текстовую расшифровку. Ботом можно пользоваться бесплатно и безлимитно для распознавания голосовых сообщений.

Источник: https://habr.com/ru/company/amvera/blog/693546/


Интересные статьи

Интересные статьи

Распознавание типов БЭМ-сущностей (блок, элемент, разные виды модификаторов) в скрипте на языке PowerShell с помощью простых регулярных выражений. Предполагается, что скрипт получает файл с кодом на я...
В нашей организации используется такой подход к разработке - на локальной машине (Windows 11) установлен PhpStorm и находится репозиторий с кодом. В PhpStorm настроена автоматическая выгрузка изменени...
Доброго времени суток!Первая часть - https://habr.com/en/post/573326/В прошлый раз мы рассмотрели отечественный телеком рынок в целом, с фокусом на подсистему радиодоступа, определили его размер, хара...
Привет! На связи Кирилл, куратор потока «Менеджмент». В марте наш раздел пополнился огромным количеством интересных постов. Как и в прошлом месяце, мы сделали подборку са...
Распространение по миру вируса COVID-19 вызвало резкое изменение паттернов потребительского поведения. В условиях роста панических настроений и предписаний соблюдать социальную дистанцию растет д...