Итоги хакатона по разработке алгоритмов генерации голосовых фейков

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Дипфейк (deep fake) — это реалистичная манипуляция аудио-, фото- и видеоматериалами с помощью искусственного интеллекта для достижения максимального сходства с реальными изображениями и звуковыми дорожками. Само название «deep fake» объединяет в себе «глубокое обучение» (deep learning) и «подделку» (fake).

Выбор темы хакатона не случаен. Помимо того, что технология производства дипфейков (Generative Artificial Intelligence) названа агентством Gartner стратегическим трендом 2022 года, мы также наблюдаем постоянный рост случаев мошенничества и пропаганды с помощью сгенерированных аудио, видео и текстов. Для успешного противодействия таким технологиям важно понимать, как такой генеративный контент создаётся. 

За время хакатона командам необходимо было сгенерировать 10 аудиозаписей по 10 предоставленным текстам и далее презентовать решение жюри.

Хакатон проходил в очном формате в техно-коворкинге университета. Для участников был предусмотрен призовой фонд 110 тысяч рублей от РТУ МИРЭА. Победители также получили возможность пройти стажировку в  «Наносемантике». 

Для решения поставленной задачи студенческим командам был предоставлен набор данных (датасет) из 2 часов аудиозаписей с голосом американского президента Джо Байдена, программный код с предобученной нейронной сетью для синтеза речи и вычислительные мощности (сервер с видеокартой). Для более глубокого погружения участников в тему специалисты «Наносемантики» также провели 2 обучающих мастер-класса: «Современные методики генерации голосовых дипфейков и синтеза речи» и «Ключевые особенности распознавания голосовых дипфейков».

Перед хакатоном специалисты Наносемантики самостоятельно синтезировали Байдена:

А вот для сравнения неповторимый оригинал.

И ещё: ссылка на youtube.

Всего в соревнование вступило 46 студентов в составе 17 команд, до финала дошло 5 команд.

В состав жюри вошли: С.А. Кудж (ректор РТУ МИРЭА), А.А. Бакаев (директор Института кибербезопасности и цифровых технологий), Станислав Ашманов (генеральный директор «Наносемантики»), Павел Сухачёв, Антон Дробышев и Григорий Шершуков (ведущие специалисты и руководители отделов «Наносемантики»).

Результаты проектов оценивались судьями по следующим критериям:

  • Соответствие представленного результата поставленной задаче.

  • Реалистичность и качество звучания полученных аудиозаписей.

  • Презентация решения.

  • Креативный подход к решению задачи.

Итоги были подведены 24 апреля 2022 года после итоговых презентаций команд. 

Единогласным решением жюри победа была присуждена команде «Лирохвост» из РТУ МИРЭА. Команда показала лучший результат по клонированию голоса, а также добавила разработку генерации текста рэп-композиций на основе технологий gpt2. Помимо денежного приза в 50 тысяч рублей победители получили возможность пройти стажировку в «Наносемантике». 

Пример синтезированного аудио команды-победителя:

Второе место получила команда GENERAL. Ребята добавили в своё решение технологию синтеза голоса под видео (движение рта и губ) и получили денежный приз в 30 тысяч рублей.

Третье место и денежный приз в 30 тысяч рублей разделили три команды: Thunder Forward, Crazy Cats, Neural_Ducks. Их финальные проекты не были доработаны до конца, но в течение хакатона командам удалось опробовать несколько интересных технологических решений и креативно подойти к разработке.

Хакатон удался: тема дипфейков в последнее время стала особенно актуальной и вызвала большой интерес у студенческой аудитории. Участники проявили упорство и стремление к победе несмотря на то, что сама задача была достаточно сложной для неподготовленных команд, а времени на обучение моделей было критически мало (2 дня). 

По мотивам проведённого хакатона студенты сняли небольшой видеоролик.

Источник: https://habr.com/ru/company/ashmanov_net/blog/667312/


Интересные статьи

Интересные статьи

Два года назад мы провели масштабное мероприятие – Rosneft Seismic Challenge 2019 – соревнование по машинному обучению, где нужно было найти границы между различными геологическими слоями (фациями) по...
В данной статье объясняется механизм, используемый игрой Castlevania III: Dracula’s Curse для сохранения и восстановления игрового состояния при помощи паролей. Информация статьи относитс...
До Golang Live 2020 уже рукой подать. С 14 по 17 октября мы встречаемся на платформе Онтико. И даже в онлайн-формате, помимо традиционных докладов, будут интерактивные форматы: воркшо...
Написанию этого небольшого руководства предшествовало нескольких недель мучений с попытками работы над проектами, когда было необходимо чтобы был запущен контейнер с сайтом для работы...
В 2019 году люди знакомятся с брендом, выбирают и, что самое главное, ПОКУПАЮТ через интернет. Сегодня практически у любого бизнеса есть свой сайт — от личных блогов, зарабатывающих на рекламе, до инт...