Как системы ИИ стремятся упростить звукорежиссуру

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.
На этих выходных мы решили рассказать о разработках двух американских университетов, которые помогают генерировать достаточно правдоподобный звукоряд для беззвучных видео.


Фото Free To Use Sounds / Unsplash

Трудная задача шумовика


Звуки для фильмов и сериалов — например, шелест дождя — очень сложно записать нужным образом прямо на площадке в момент съемки того или иного фрагмента. Будет много посторонних шумов, возможны конфликты с голосами актеров и другим оборудованием. По этой причине почти все звуки записывают отдельно и сводят уже при монтаже. Занимаются этим шумовики.

Если для фильма нужно воспроизвести звук разбитого окна, то звукооформители отправляются на студию и начинают бить стекла в контролируемых акустических условиях. Запись проводят до тех пор, пока звук не будет совпадать с происходящим на экране. В особо сложных случаях на это могут потребоваться десятки итераций, что усложняет и удорожает кинопроизводство.

Инженеры из Техасского университета предложили альтернативный вариант. Они разработали систему ИИ, которая определяет, что происходит в кадре, и автоматически предлагает звукоряд.

Как это работает


Принцип действия системы инженеры описали в своей работе для IEEE (PDF). Они спроектировали две модели машинного обучения. Первая выделяет из видеоряда признаки изображений — например, цвет. Вторая модель анализирует движение объекта на разных кадрах и определяет его природу, чтобы выбрать подходящий звук.

Для формирования акустического ряда инженеры разработали программу AutoFoley. Она генерирует новый звук на основе тысячи коротких аудиосемплов — с шумом дождя, тиканьем часов, галопирующей лошадью. Результат работы достаточно убедительный:


К сожалению, пока система имеет ряд серьезных ограничений. Она подходит для обработки записей, на которых звук не должен идеально совпадать с видеорядом. Иначе становится заметна рассинхронизация — как на этом видео. Также объект должен постоянно присутствовать в кадре, чтобы модель МО могла его распознать. Сейчас разработчики занимаются оформлением патента, но потом они планируют исправить недостатки.

Кто еще занимается такими проектами


В 2016 году специалисты из MIT и Стэнфорда представили модель машинного обучения, способную озвучить «немое» видео. Она предсказывает звук на основе свойства объекта в кадре — например, его материала. В качестве эксперимента инженеры загрузили в систему видеоролик, на котором человек ударяет барабанной палочкой по различным поверхностям: металлу, земле, траве и другим.


Эффективность алгоритма разработчики оценили с помощью онлайн-опроса. Наиболее реалистичными оказались звуки листьев и грязи (их назвали настоящими 62% опрошенных), а наименее — дерева и металла. Металл звучал натурально только в 18% случаев.

Эта система также требует доработки. Она генерирует звуки, возникающие при столкновениях объектов, но не может воссоздать акустический ряд для шума ветра. Кроме того, алгоритм ошибается, если объекты движутся слишком быстро. Несмотря на этот факт у подобных решений есть потенциал — они способны упростить работу шумовикам и преобразить киноиндустрию.



Дополнительное чтение в «Мире Hi-Fi»:

Ужасы киномана: ремастеринг и дубляж
Кто выбирает музыку для кино и сериалов? Музыкальный супервайзер
«О, нет, опять»: музыка в кино и сериалах, которую мы слышим слишком часто
Дождь, лязг доспехов и жидкий металл: как создается звук для кино
«Звукоцех»: Как создают звуковое оформление для кино


Источник: https://habr.com/ru/company/audiomania/blog/516092/


Интересные статьи

Интересные статьи

Добрый день. Меня зовут Никита Башун, работаю дата-аналитиком в группе компаний «Везёт». Мой рассказ будет о том, как мы командой из трёх человек с нуля создавали систему антифрода дл...
Перед тем как воспользоваться продуктом, мы обращаем внимание на его состояние. Представьте, что вы приходите в автосалон и выбираете машину. Если машина выглядит плохо, то мы нач...
Привет! Этот пост-отчёт с митапа Backend United, нашей серии тематических встреч для разрабочиков серверной части. Пятая встреча получила название «Шаурма», и здесь мы говорили о микросервисах: о...
Компании переполнили рынок товаров и услуг предложениями. Разнообразие наблюдается не только в офлайне, но и в интернете. Достаточно вбить в поисковик любой запрос, чтобы получить подтверждение насыще...
Если честно, к Д7 у меня несколько неоднозначное отношение. В некоторых местах я попискиваю от восторга, а в некоторых хочется топать ногами и ругаться неприличными словами.