Четыре концепции в проектировании, способствующие повышению качества аудио вещей (AoT)

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Ниже представлен перевод статьи, опубликованной в EDN.

Интернет вещей (IoT) - это не одноколейный конь, он воплощает в себе широкий спектр вариантов использования. Одно из ответвлений, Audio of Things или AoT, охватывает аудиотехнологии, такие как голосовое управление, связь, воспроизведение и восприятие, а также их развивающиеся отношения с интеллектуальными устройствами и машинами.

Этот термин был придуман DSP Concepts, дизайн-центром, который предоставляет производителям микросхем и OEM-производителям рабочие процессы в режиме реального времени для встраивания звуковых и голосовых функций в проекты с поддержкой звука. Компания утверждает, что ее строительные блоки AoT не зависят от процессора и полностью настраиваются.

По словам Саймона Форреста, главного технологического аналитика Futuresource Consulting, Audio of Things в настоящее время является постоянно расширяющейся предпосылкой из-за глобального спроса на продукты, ориентированные на аудио. “Адресный рынок аудиопродукции в 2021 году составит чуть менее 3,5 миллиардов устройств, из которых 2,1 миллиарда интегрированы в обработку голоса”.

Рисунок 1. В Audio of Things используется широкий спектр технологий, включая голосовое управление, связь, воспроизведение и восприятие.
Рисунок 1. В Audio of Things используется широкий спектр технологий, включая голосовое управление, связь, воспроизведение и восприятие.

Источник: DSP Concept. В то время как люди взаимодействуют с машинами, вставляя сложную серию нажатий кнопок, понятных машине, более умные устройства теперь используют человеко-машинные интерфейсы на основе речи (HMI), используя возможности обработки звука, доступные на периферийных устройствах. Ниже приводится краткое изложение ключевых тенденций в дизайне, которые помогают разработчикам преодолевать уникальные проблемы, связанные со звуковым интерфейсом и дизайном намерений.

От облака к краю

Интеллектуальные устройства или машины с голосовыми интерфейсами используют двусторонний подход для определения цели. Модуль автоматического распознавания речи (ASR) используется для преобразования речи в текст, а затем действие определяется путем анализа этого текста с помощью механизма понимания естественного языка (NLU). Как правило, в этих процессах используются платформы облачных вычислений, такие как Amazon Voice Services и Google Assistant, которые используют искусственный интеллект (ИИ) и машинное обучение для обработки чрезвычайно широкого набора запросов и команд и генерирования столь же широкого набора ответов и действий.

Однако, несмотря на постоянное совершенствование облачных технологий, таких как ASR и NLU, в основном это были “пограничные” проекты, которые снизили барьеры для распространения голосовых HMI. На переднем крае новое поколение встроенных движков преобразования речи в намерения полностью работают на самом устройстве, хотя и с ограниченным словарным запасом и набором практических намерений.

Ускорение обработки звука

Инженеры по разработке аудио традиционно добавляли автономный DSP на плату в качестве звукового сопроцессора, главным образом потому, что микроконтроллеры не обладали требуемой мощностью. Теперь встроенные процессоры используют усовершенствования набора команд, такие как Neon от Arm для Cortex-A и Helium для Cortex-M, для поддержки операций с плавающей запятой и SIMD, необходимых для эффективной обработки звука.

Это обеспечивает вычислительную мощность, необходимую для интеграции голосового управления в дизайн. Более того, в отличие от DSP с частотой 200 МГц, потребляющего 7000 мкВт / МГц, оптимизированный по мощности микроконтроллер с возможностями обработки звука может работать со скоростью около 20 мкВт / МГц.

Рисунок 2.  Audio Weaver (буквально Звуковой Ткач,), графическая среда проектирования, оптимизированная для встроенного аудио программного обеспечения, предлагает программные компоненты для улучшения обработки звука в чипах, обслуживающих аудио вещей. Источник: DSP Concept.
Рисунок 2. Audio Weaver (буквально Звуковой Ткач,), графическая среда проектирования, оптимизированная для встроенного аудио программного обеспечения, предлагает программные компоненты для улучшения обработки звука в чипах, обслуживающих аудио вещей. Источник: DSP Concept.

Появление микрофонных решеток

Массив из нескольких микрофонов вместо одного микрофона выигрывает от большего количества вычислительных циклов для звукового дизайна. Однако проектирование массива, состоящего из двух-семи микрофонов, требует специальных знаний в области акустики, электротехники и механики. Инженеры-проектировщики должны выбрать подходящие микрофоны, определить оптимальное количество и геометрию массива, а также убедиться, что они правильно установлены и закреплены. Кроме того, инженеры должны спроектировать общее акустическое шасси и шасси продукта без механической связи между микрофонами и динамиками.

Программный AFE (Аудио фронт-энд)

Еще одним препятствием на пути широкого внедрения голосовых пользовательских интерфейсов стала низкая производительность распознавания речи, и именно здесь в игру вступают дизайнерские инновации в области аудио интерфейса (AFE). AFE — функциональный блок, расположенный между микрофонами устройства и остальной частью системы обработки голоса, — берет необработанный звук с микрофонов и пытается создать единый выходной аудиопоток из голосовых команд пользователя.

Здесь аппаратные AFE с фиксированной функцией трудно интегрировать в небольшие форм-факторы, и их производительность в основном не впечатляет. Но теперь доступность программных AFE, таких как TalkTo, позволяет машинам соответствовать способности человека понимать речь в шумной среде.

Рисунок 3. В систему на кристалле (SoC) от Qualcomm встроен TalkTo для поддержки дизайна, обеспечивающего постоянное прослушивание.
Рисунок 3. В систему на кристалле (SoC) от Qualcomm встроен TalkTo для поддержки дизайна, обеспечивающего постоянное прослушивание.

Источник: Qualcomm.

В TalkTo многоканальный акустический эхоподавитель (AEC) отменяет “известные” звуки, издаваемые собственными динамиками устройства. Далее, технология адаптивного подавления помех (AIC) использует машинное обучение и передовые технологии обработки микрофонов для непрерывного отображения и характеристики окружающего звукового поля.

Автор: Маджид Ахмад, главный редактор EDN и Planet Analog, занимается разработкой электроники более двух десятилетий.

Источник: https://habr.com/ru/post/716314/


Интересные статьи

Интересные статьи

Blade Runner 2049, Warner Bros. PicturesЯ видел не во сне, а наяву атакующие корабли, пылающие под четырьмя вложенными if-else, и лучи CI с кучей сканирований у ворот Тангейзера, вызывающие лютую боль...
В XXI веке даже такую традиционную область как сельское хозяйство невозможно представить без цифровизации. В этой статье мы рассказываем, как интернет вещей может облегчить жизнь фермеров.
Моё знакомство с Open XML SDK началось с того, что мне понадобилась библиотека для создания документов Word с некоторой отчётностью. После работы с Word API более 7 лет, захотелось попр...
В продолжении одной из тем, поднятых в публикации Александра Ершова (Ustas) «Нейросетевой визуальный поиск», предлагаю читателям Хабра погрузиться в мир концепции Н.М. Амосова, ее -мо...
Добрый день (или вечер, или утро, в зависимости от того, когда выйдет этот пост). Я хочу высказаться о элитарной части программирования, и донести, в общем-то, очевидную мысль до начинающих в ...