Хайлайты и тренды ICCV 2019

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Нейросети в компьютерном зрении активно развиваются, многие задачи еще далеки от решения. Чтобы быть в тренде в своей области, достаточно подписаться на инфлюенсеров в Твиттере и читать релевантные статьи на arXiv.org. Но у нас появилась возможность съездить на Internatinal Conference on Computer Vision (ICCV) 2019. В этом году она проводится в Южной Корее. Теперь мы хотим поделиться с читателями Хабра тем, что мы увидели и узнали.

От Яндекса нас там было много: приехали разработчики беспилотного автомобиля, исследователи, те, кто занимается задачами CV в сервисах. Но сейчас мы хотим представить немного субъективную точку зрения нашей команды — лаборатории машинного иниеллекта (Yandex MILAB). Другие ребята наверняка смотрели на конференцию под своим углом.

Чем занимается лаборатория

Мы делаем экспериментальные проекты, связанными с генерацией изображений и музыки для развлекательных целей. Особенно нам интересны нейросети, которые позволяют менять контент от пользователя (для фото такая задача называется image manipulation). Пример результата нашей работы с конференции YaC 2019.

Научных конференций очень много, но из них выделяются топовые, так называемые A* конференции, на которых обычно публикуются статьи о самых интересных и важных технологиях. Точного списка A* конференций нет, вот примерный и неполный: NeurIPS (ранее NIPS), ICML, SIGIR, WWW, WSDM, KDD, ACL, CVPR, ICCV, ECCV. Последние три специализируются на теме CV.

ICCV at glance: постеры, туториалы, воркшопы, стенды

На конференцию приняли 1075 работ, участников было 7500. Из России приехало 103 человека, были статьи от сотрудников Яндекса, Сколтеха, Samsung AI Center Moscow и Самарского университета. В этом году ICCV посетило не так много топовых исследователей, но вот, например, Алексей (Алёша) Эфрос, который всегда собирает много народа:

Статистика:

На всех подобных конференциях статьи представляют в виде постеров (подробнее о формате), а лучшие презентуют ещё и в виде коротких докладов. Вот часть работ из России:

На туториалах можно погрузиться в какую-то предметную область, это напоминает лекцию в вузе. Её читает один человек, обычно не рассказывая о конкретных работах. Пример классного туториала (Mikhael Brown, Understanding Color and the In-Camera Image Processing Pipeline for Computer Vision):

На воркшопах, напротив, рассказывают про статьи. Обычно это работы в какой-то узкой теме, рассказы от руководителей лабораторий о всех последних работах студентов, либо статьи, которые не были приняты на основную конференцию.

Компании-спонсоры приезжают на ICCV со стендами. В этом году приехали Google, Facebook, Amazon и много других международных компаний, а также большое число стартапов — корейских и китайских. Особенно много было стартапов, которые специализируются на разметке данных. На стендах проходят свои выступления, можно брать мерч, задавать вопросы. Для хантинга у компаний-спонсоров бывают вечеринки. На них удаётся попасть, если убедить рекрутеров, что вам интересно и что вы потенциально можете пройти собеседования. Если вы опубликовали статью (или, тем более, выступили с ней), начали или заканчиваете PhD — это плюс, но порой можно договориться на стенде, задав интересные вопросы инженерам компании.

Тренды

Конференция позволяет окинуть взглядом всю область CV. По количеству постеров той или иной тематики можно оценить, насколько тема горячая. Какие-то выводы напрашиваются уже по ключевым словам:

Zero-shot, one-shot, few-shot, self-supervised и semi-supervised: новые подходы к давно изученным задачам

Люди учатся более эффективно использовать данные. Например, в FUNIT можно генерировать выражение лиц животных, которых не было в обучающей выборке (в применении подавая несколько референсных картинок). Идеи Deep Image Prior получили развитие, и теперь сети GAN удаётся обучать на одной картинке — мы еще расскажем об этом ниже в хайлайтах. Можно использовать self-supervision для предобучения (решая задачу, для которой можно синтезировать выровненные данные, например предсказывать угол поворота картинки) или учиться одновременно на размеченных и неразмеченных данных. В этом смысле венцом творения можно считать статью S4L: Self-Supervised Semi-Supervised Learning. А вот предобучение на ImageNet не всегда помогает.

Хайлайты

Почти все статьи были известны заранее, текст был доступен на arXiv.org. Поэтому представление таких работ, как Everybody Dance Now, FUNIT, Image2StyleGAN, кажется скорее странным — это очень полезные работы, но никак не новые. Похоже, классический процесс научных публикаций здесь даёт сбой — наука развивается слишком быстро.

Определить лучшие работы очень сложно — их много, тематики разные. Несколько статей получили награды и упоминания.

Мы хотим выделить работы, интересные с точки зрения манипуляции изображениями, так как это наша тема. Они оказались для нас достаточно свежими и интересными (мы не претендуем на объективность).

SinGAN (best paper award) и InGAN

SinGAN: страница проекта, arXiv, код.
InGAN: страница проекта, arXiv, код.

Развитие идеи Deep Image Prior от Дмитрия Ульянова, Андреа Ведальди и Виктора Лемпицкого. Вместо обучения GAN на датасете, сети учатся на фрагментах одной и той же картинки, чтобы запомнить статистики внутри неё. Обученная сеть позволяет редактировать и анимировать фотографии (SinGAN) или генерировать новые изображения любого размера из текстур исходного изображения, сохраняя локальную структуру (InGAN).

SinGAN:

InGAN:

Seeing What a GAN Cannot Generate

Страница проекта.

Нейросети, генерирующие изображения, часто принимают на вход вектор случайного шума. В обученной сети множество входных векторов образует пространство, небольшие перемещения по которому приводят к небольшим изменениям картинки. С помощью оптимизации можно решать обратную задачу: для картинки из реального мира находить подходящий входной вектор. Автор показывает, что найти в нейросети совпадающую полностью картинку невозможно почти никогда. Некоторые объекты на картинке не генерируются (видимо, из-за большой вариативности этих объектов).

Автор выдвигает гипотезу, что GAN покрывает не всё пространство картинок, а только какое-то подмножество, напичканное дырами, как сыр. При попытке найти в нём фото из реального мира мы всегда будем терпеть неудачу, потому что GAN генерирует всё-таки не совсем реальные фотографии. Преодолеть отличия между реальными и сгенерированными картинками можно, только изменяя веса сети, то есть дообучая её под конкретное фото.

Когда сеть дообучена под конкретное фото, можно пробовать проводить с этим изображением различные манипуляции. В примере ниже на фото добавили окно, и сеть дополнительно сгенерировала отблески на кухонном гарнитуре. Значит, сеть и после дообучения под фотографию не потеряла способность видеть связь между объектами сцены.

GANalyze: Toward Visual Definitions of Cognitive Image Properties

Страница проекта, arXiv.

С помощью подхода из этой работы можно визуализировать и анализировать, что выучила нейросеть. Авторы предлагают обучить GAN создавать картинки, для которых сеть будет генерировать заданные предсказания. В качестве примеров в статье использовали несколько сетей, в том числе MemNet, предсказывающий запоминаемость фото. Выяснилось, что для лучшей запоминаемости объект на фото должен:
— быть ближе к центру,
— иметь более круглую или квадратную форму и простую структуру,
— находиться на однородном фоне,
— содержать выразительные глаза (по крайней мере, для фото собак),
— быть ярче, насыщеннее, в некоторых случаях — краснее.

Liquid Warping GAN: A Unified Framework for Human Motion Imitation, Appearance Transfer and Novel View Synthesis

Страница проекта, arXiv, код.

Пайплайн для генерации фотографий людей по одной фотографии. Авторы показывают успешные примеры по переносу движения одного человека на другого, переносу одежды между людьми и генерации новых ракурсов человека — всё по одной фотографии. В отличие от предыдущих работ, здесь для создания условий используются не ключевые точки в 2D (поза), а 3D-сетка тела (поза + форма). Также авторы придумали, как перенести информацию с исходного изображения на сгенерированное (Liquid Warping Block). Результаты выглядят достойно, но разрешение полученной картинки — всего 256х256. Для сравнения, появившийся год назад vid2vid способен генерировать в разрешении 2048x1024, но ему нужно целых 10 минут видеосъёмки в качестве датасета.

FSGAN: Subject Agnostic Face Swapping and Reenactment

Страница проекта, arXiv.

Сначала кажется, что ничего необычного: deepfake с более-менее нормальным качеством. Но основное достижение работы — подстановка лиц по одной картинке. В отличие от предыдущих работах в требовалось обучение на множестве фотографий конкретного человека. Пайплайн получился громоздким (reenactment and segmentation, view interpolation, inpainting, blending) и с большим количеством технических хаков, но результат того стоит.

Detecting The Unexpected via Image Resynthesis

arXiv.

Как беспилотнику понять, что перед ним неожиданно появился объект, который не попадает ни в один класс семантической сегментации? Существует несколько методов, но авторы предлагают новый, интуитивно понятный алгоритм, работающий лучше предшественников. По входному изображению дороги предсказывается семантическая сегментация. Она подаётся на вход в GAN (pix2pixHD), который пытается восстановить исходное изображение только по семантической карте. Аномалии, которые не попали ни в один из сегментов, будут значительно отличаться в исходом и сгенерированном изображении. Затем три изображения (исходное, сегментация и восстановленное) подаются в другую сеть, которая предсказывает аномалии. Датасет для этого генерировали из известного датасета Cityscapes, случайно изменяя классы на семантической сегментации. Что интересно, в такой постановке собака, стоящая посередине дороги, но правильно отсегментированная (значит, для неё есть класс), не является аномалией, поскольку система смогла её распознать.

Заключение

Перед конференцией важно знать, в чем твои научные интересы, на какие выступления хотелось бы попасть, с кем поговорить. Тогда всё пройдет гораздо продкутивнее.

ICCV — это прежде всего нетворкинг. Понимаешь, что есть топовые институты и топовые научруки, начинаешь в этом разбираться, знакомиться с людьми. А статьи можно и на arXiv почитать — и кстати, это очень круто, что за знаниями можно никуда не ехать.

Кроме того, на конференции можно глубоко погрузиться в темы, которые тебе не близки, увидеть тренды. Ну и выписать список статей для прочтения. Если вы студент — для вас это возможность познакомится с потенциальным научруком, если вы из индустрии — то с новым работодателем, а если компания — то показать себя.

Подписывайтесь на @loss_function_porn! Это личный проект: ведём вместе с karfly. Все работы, которые нам нравились во время конференции, мы постили сюда: @loss_function_live.

Источник: https://habr.com/ru/company/yandex/blog/474902/

Вернуться к списку

Интересные статьи

Меняем страницу просмотра элемента универсальных списков в коробочном Битрикс24

Всем привет. Если вы когда-либо работали с универсальными списками в Битрикс24, то, наверное, в курсе, что страница детального просмотра элемента полностью идентична странице редак...

Веб тренды 2020, которые стоит попробовать

Последние несколько лет мы наблюдаем множество изменений в мире веб технологий. В 2020 году, я хочу обратить ваше внимание на два основных тренда/цели которые есть у веб комьюнити: расширяемост...

Разбор задач Одноклассников на Joker 2019

С 28 по 29 октября в Санкт-Петербурге проходила Joker 2019 – самая большая и хардкорная на просторах России конференция, посвященная Java-разработке. Мероприятие проходило в седьмой раз и как...

Битрикс для программиста и менеджера: любовь и ненависть

Здравствуйте. Я уже давно не пишу на php, но то и дело натыкаюсь на интернет-магазины на системе управления сайтами Битрикс. И я вспоминаю о своих исследованиях. Битрикс не любят примерно так,...

Обзор рынка моноколес 2019

На большей части России еще лежит снег, но уже пора задуматься о том, как проводить лето. И сложно представить что-то более приятное, чем парить над тротуаром, усилием мысли перемещаясь, куда хоч...

Хайлайты и тренды ICCV 2019

ICCV at glance: постеры, туториалы, воркшопы, стенды

Тренды

Zero-shot, one-shot, few-shot, self-supervised и semi-supervised: новые подходы к давно изученным задачам

3D и 360°

Определение позы и предсказание движений человека

Манипуляции с людьми на фото и видео, виртуальные примерочные

Генерация по скетчам/графам

Реиндентификация людей и машин, подсчёт численности толпы (!)

Защита от adversarial-атак

Совмещённые задачи

Хайлайты

SinGAN (best paper award) и InGAN

Seeing What a GAN Cannot Generate

GANalyze: Toward Visual Definitions of Cognitive Image Properties

Liquid Warping GAN: A Unified Framework for Human Motion Imitation, Appearance Transfer and Novel View Synthesis

FSGAN: Subject Agnostic Face Swapping and Reenactment

Detecting The Unexpected via Image Resynthesis

Заключение

Интересные статьи

Интересные статьи