Смотрим на use-кейсы помимо распознавания музыки. Это — персонализированные плейлисты и возможность повторно пережить концерт любимой группы.
Что такое акустический отпечаток
Это — способ представления аудиозаписи в компактном виде. По сути, отпечаток содержит набор значений, описывающих физические параметры звука.
Есть разные подходы к формированию таких отпечатков. В большинстве случаев они подразумевают поиск частот с максимальной амплитудой на спектрограмме, но алгоритм определяют разработчики приложений. Существуют и open source решения — например, библиотека для .NET soundfingerprinting, автор которой использовал метод locality-sensitive hashing (LSH) для определения «похожести» отпечатков. Другой пример — фреймворк dejavu, реализующий алгоритм на Python.
С помощью акустических отпечатков можно определить не только музыку, если она играет по радио или в торговом центре, но и насвистанные мелодии. Для этого существует целый класс систем, которые называют query by humming (QbH). В 2020 году такую функциональность своего голосового помощника представили в Google. Аналогичную возможность предлагает сервис распознавания музыки SoundHound (который, кстати, вошел в число музыкальных проектов, вышедших на IPO в прошлом году — подробнее мы рассказывали в прошлом материале).
Распознавание треков — один из самых распространённых кейсов с акустическими отпечатками, но есть и другие.
Персонализация
Акустические отпечатки можно использовать для распознавания эмоций. В прошлом году Spotify запатентовали технологию, которая с помощью микрофонов анализирует интонации в речи, уровень стресса слушателя, определяет пол и примерный возраст. Также она оценивает окружающую обстановку — например, сколько человек находится в помещении, где играет музыка. Технология призвана улучшить рекомендательную систему и работу персонализированных плейлистов.
В целом разработку шведской компании встретили прохладно. Несколько организаций по защите прав потребителей и почти двести исполнителей составили открытое письмо, в котором призвали Spotify отказаться от ее внедрения. В список активистов вошел гитарист Том Морелло из Rise Against the Machine, американский рэпер Талиб Квели, а также солистка панк-рок группы Against Me! Лора Джейн Грейс.
По словам музыкантов, технология определения эмоций создает угрозу приватности слушателей. Аналогичную точку зрения высказал один из резидентов Hacker News в тематическом треде. Другой участник дискуссии отметил, что в таких условиях выходом могут стать курируемые плейлисты и собственные подборки — возможно, даже на физических носителях. В пространство музыкальной культуры как раз возвращаются аудиокассеты и компакт-диски.
В любом случае наличие патента не означает, что компания действительно использует технологию. Многие фирмы патентуют наиболее интересные идеи просто с целью защитить себя в потенциальных судебных разбирательствах.
Работа с видео
Инженеры из Дрексельского университета, кажется, верят в скорое возвращение к привычной жизни и во всю разрабатывают систему, которая позволяет «склеить» десятки видеозаписей, сделанных на концерте. Чтобы синхронизировать ролики, снятые на смартфоны с разных ракурсов, авторы проекта используют акустические отпечатки — они помогают найти «пересекающиеся» моменты.
За построение отпечатков отвечает уже упомянутый открытый алгоритм dejavu. Он ищет частотные пики на спектрограмме и вычисляет расстояние между ними, создавая уникальный рисунок. Может, в перспективе подобные технологии, объединенные с возможностями AR и VR, позволят снова и снова погружаться в атмосферу прошлых выступлений.
Дополнительное чтение — в нашем мире «Hi-Fi»:
Что может быть общего у поп-музыки и пения птиц
Humming-эффект: иногда достаточно напевать, пока занимаешься делом
«Плейлистификация»: нужна ли она слушателям?
Больше материалов в нашем блоге на Хабре:
Парочка простых онлайн-секвенсоров для начинающих композиторов
Четыре пары примечательных и достаточно доступных наушников
Сможет ли технология data-over-audio заменить QR-коды