Кто занимается дипфейк-аудио и зачем это нужно

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

С начала года появилось сразу несколько новых систем ИИ, способных синтезировать видеозапись с говорящим человеком на основе аудио. Расскажем, кто и с какой целью занимается подобными разработками. Также поговорим о других инструментах, позволяющих редактировать аудиозаписи.

^{Фото Erik-Jan Leusink / Unsplash}

Что делают

В декабре 2019-го специалисты из Мюнхенского технического университета и Института информатики Общества Макса Планка опубликовали научную работу, посвященную системе Neural Voice Puppetry.

Для генерации видеозаписи ей нужен лишь аудиофайл с голосом человека и его фотография. Процесс состоит из трех этапов. Сперва рекуррентная нейросеть анализирует речь на записи и строит логит-модель, отражающую особенности произношения спикера. Она направляется в обобщающую нейронную сеть, которая рассчитывает коэффициенты для построения трехмерной модели лица. Далее, в дело вступает рендер-модуль, который генерирует финальную запись.

Разработчики говорят, что Neural Voice Puppetry воспроизводит ролики высокого качества, однако им еще предстоит решить некоторые проблемы, связанные с синхронизацией звука.

Аналогичную технологию разрабатывают инженеры из Наньянского университета в Сингапуре. Их система позволяет объединить запись речи одного человека с видеозаписью другого. Первым делом она формирует 3D-модель лица для каждого кадра на целевом видео. Далее, нейросеть анализирует ключевые мимические точки, и модифицирует трехмерную модель так, чтобы её выражения совпадали с фонемами исходного аудиофайла. По словам авторов, их инструмент превосходит по качеству аналоги. Во время слепых тестов респонденты пометили 55% записей как «настоящие».

Где применяют

В будущем дипфейки позволят создавать реалистичные видеоаватары — личности для голосовых ассистентов. В 2017 году энтузиаст Джарем Арчер (Jarem Archer) реализовал помощника Cortana из ОС Windows 10 в виде голограммы. Системы искусственного интеллекта для формирования дипфейков переведут подобные решения на новый уровень. Еще одна область применения таких алгоритмов — игровая индустрия. Генерация лицевой анимации по звуковой дорожке упростит работу гейм-дизайнеров, настраивающих мимику виртуальных персонажей.

Разработчики дипфейк-технологий отмечают, что их системы лишь инструмент. И к сожалению, его неизбежно будут использовать в противозаконных целях. Первое такое преступление было совершено в 2019 году. Директор английской энергетической компании перевел 240 тыс. долларов мошеннику. Тот сымитировал голос главы концерна из Германии с помощью нейронных сетей и попросил совершить транзакцию. Поэтому специалисты из университетов активно работают с правоохранительными органами и политиками, чтобы предотвращать подобные ситуации. Например, Колорадский университет в Денвере разрабатывает инструменты для распознавания поддельных аудио и видеозаписей. В будущем подобных проектов будет становиться только больше.

Какие еще есть проекты

Есть инструменты, которые позволяют редактировать аудиозаписи также легко как обыкновенный текст. Например, Descript предлагает аудиоредактор, который транскрибирует слова спикера и позволяет отредактировать их в текстовом виде. Можно добавить паузы, переставить фрагменты местами — все правки синхронизируются с аудиозаписью. Разработчики говорят, что система обрабатывает файлы в .m4a, .mp3, .aiff, .aac и .wav, а точность транскрибирования превышает 93%.

^{Фото Yohann LIBOT / Unsplash}

В одно время с Descript появились и другие проекты. Инженеры из университета в Принстоне представили «фотошоп для аудио» — систему VoCo. Она позволяет не только редактировать записи в текстовом виде, но и синтезировать фразы голосом спикера (с учетом интонаций).

В будущем такие сервисы пригодятся журналистам и медиакомпаниям, создающим аудиоконтент. Также они помогут людям со специфическими заболеваниями, которые общаются с помощью систем речевого синтеза. VoCo и аналоги сделают их голос менее «роботизированным».

Дополнительное чтение в нашем блоге «Мир Hi-Fi»:

«Стервозная Бетти» и аудиоинтерфейсы: почему они говорят женским голосом

Аудиоинтерфейсы: звук как источник информации на дороге, в офисе и в небе

Первый в мире «гендерно-нейтральный» голосовой помощник

История синтезаторов речи: первые механические установки

Как синтез речи появился на ПК

Источник: https://habr.com/ru/company/audiomania/blog/499058/

Вернуться к списку

Интересные статьи

О чем говорят графики: что такое технический анализ, и зачем его используют биржевые инвесторы

Существуют различные способы анализа активов, которые торгуются на бирже. Например, в случае компаний и их акции есть фундаментальный анализ, позволяет инвесторам понять обоснован...

Разбор: зачем нужны брокеры, сколько стоит быть инвестором, как защищены биржевые активы

Изображение: Unsplash В нашем блоге мы регулярно пишем об устройстве фондового и финансового рынка, различных стратегиях поведения для инвесторов, финтех-технологиях и т.п. В последние пар...

Минусы для пользователя при использовании 1С-Битрикс

Есть статьи о недостатках Битрикса, которые написаны программистами. Недостатки, описанные в них рядовому пользователю безразличны, ведь он не собирается ничего программировать.

Зачем совершать операции с валютой на бирже: 3 практических сценария

Изображение: Unsplash По статистике, уровень финансовой грамотности в России растет. Сейчас он немногим ниже, чем, например, в Великобритании. Все больше людей экспериментирует со своими ф...

Как выбрать 3D-принтер, или зачем нужен нагревательный стол и закрытая камера

Различные модели 3D-принтеров отличаются максимальной температурой нагрева стола, на котором ведется печать. В данной статье я расскажу о разных категориях принтеров по этому очень важному параме...