Привет! Меня зовут Александр Коротин. Я — научный сотрудник AIRI и руководитель исследовательской группы Сколтеха. Область моих интересов — генеративные модели для переноса данных между доменами. Мы с моими коллегами добились больших успехов в повышении эффективности таких моделей и представили наши результаты на ICLR 2023 — престижной конференции по искусственному интеллекту, которая проходила этой весной в Руанде (статьи к нашим докладам можно почитать здесь и здесь). О том, как прошло это мероприятие в самом центре Африки, рассказываю в тексте ниже.
International Conference on Learning Representations
International Conference on Learning Representations, или для краткости ICLR — это довольно заметное ежегодное событие в мире машинного обучения. На конференцию регулярно приезжают крупные специалисты, занимающиеся искусственным интеллектом, а ее труды имеют высочайший ранг (A*) по версии CORE. Важно, что процесс их рецензирования организован открыто, а решения рефери всегда сопровождается обоснованными аргументами.
О крутизне этого мероприятия можно судить хотя бы потому, что существует конференция-подделка, проводимая «хищническим» издательством WASET. Об этом предупреждает большой аннаунсмент на главной странице сайта настоящей конференции.
Первая конференция ICLR состоялась в 2013 году в городе Скотсдейл в штате Аризона, США, и вплоть до 2020 года все последующие конференции проходили на Североамериканском континенте или в Европе. Но в 2020 году местом проведения этого мероприятия был выбран город Аддис-Аббеба — столица Эфиопии, расположенной в восточной Африке.
Такой выбор организаторы объяснили визовыми проблемами, с которыми сталкиваются многие участники конференции, в особенности африканцы. Организаторы вообще довольно трепетно относятся к вопросам равенства и инклюзивности, уделяя этому большое внимание. Поэтому в этот раз мероприятие прошло в городе Кигали — столице и крупнейшем городе Руанды.
Дорога в Африку
Когда мы узнали, что наши статьи приняли на конференцию, которая состоится в Центральной Африке, мы недолго колебались. С учетом нынешней внешнеполитической обстановки наши шансы выступить в тех же Штатах живьем стремились к нулю. Кроме нас такое же решение приняли и другие российские научные группы из AIRI, Сколтеха, ВШЭ и Яндекса.
Нас не испугали даже логистические трудности: лететь нужно было 16 часов с пересадкой в Стамбуле. В этом смысле задумка организаторов сработала, хотя перелет через Атлантический океан, кажется, отпугнул многих наших американских коллег.
За пару недель до отлета мы сделали прививки от желтой лихорадки, а также запаслись таблетками от малярии. Сделать это было не так-то просто, учитывая, что нужные нам лекарства не производятся в России. Кроме того, я отдельно сходил к врачу поговорить о том, как еще можно подготовиться к посещению Африки.
Конференция длилась пять дней — с 1 по 5 мая. Мы прилетели за день до начала, чтобы без спешки заселиться, взять бейджики у оргкомитета и немного прогуляться по окрестностям. У нас, как и у многих, кто читает этот текст, первая ассоциация с Руандой — это печально известный геноцид, который случился здесь почти 30 лет назад. Этот факт немного добавлял тревожности.
Но эти страхи оказались необоснованными. Кигали — это самый обыкновенный город, чем-то напоминающий приморский юг России, только моря там нет, одни горы. Единственным тревожным признаком были автоматчики, окружающие здание Kigali Convention Centre, или, если по-русски, Конференц-центра Кигали, в котором проходило наше мероприятие.
Как проходила конференция
Первые три дня конференции проходили примерно в одном формате. С утра в большом конференционном зале проходил приглашенный доклад. После кофе-брейка люди расходились по своим устным и постерным секциям. По правилам конференции каждый устный доклад необходимо представить также и постером. После обеда был еще один приглашенный доклад, а затем снова тематические секции.
Последние два дня были посвящены воркшопам. Правда, они были уже не настолько интересными — я посетил только часть из них. Общее количество участников оценить сложно, но какие-то выводы можно сделать по количеству принятых докладов: всего их более 1200.
В целом организация мне понравилась, хотя не хватало некоторой группировки постерных секций по одной тематике. Они часто проходили в разное время и не всегда ученые, работающие в рамках одной тематики, могли собраться все вместе. А еще на дневные постерные секции приходился обед: люди подходили к плакатам с тарелками в руках.
Наше исследование
От нашей группы на ICLR 2023 было принято сразу две статьи. Так вышло, что вторая была написана позже первой и являлась ее прямым продолжением, поэтому мы объединили их в одну презентацию и один постер, с которыми я выступал в первый и третий день. В постерных докладах участвовали и мои коллеги: Даниил Селиханович и Евгений Бурнаев, наш руководитель.
Наша группа занимается вопросами переноса данных из одного домена в другой с помощью нейросетей. Эта проблема возникает, например, в том случае, когда есть дефицит качественных данных для создания достаточного обучающего набора. Ее могут решить генеративные модели, которые позволяют синтезировать одни данные из других — другими словами, переносить один домен в другой. Например, человек нарисовал скетч, а нейросеть на его основе создала цифровую картинку, или спутник сделал снимок, а нейросеть улучшила его детализацию.
Обычно для решения таких задач нужны парные обучающие выборки, наборы изображений вход-выход, знания о которых нейросеть учится обобщать и распространять на новые поступающие входные изображения. Как правило, парные данные очень сложно или дорого собирать, и зачастую приходится обходиться непарными наборами, что создает трудности в достижении действительно хороших результатов. Сейчас подходы переноса одного домена в другой в значительной степени эвристические — параметры обучения приходится настраивать «руками». Нашей целью было исправить эту ситуацию, сформулировав строгий математический подход для этой операции.
Мы обратились к работам советского математика и экономиста Леонида Канторовича. Основываясь на его идеях об оптимальной перевозке грузов (теория оптимальной транспортировки), мы придумали новый алгоритм для расчета планов оптимальной транспортировки данных между доменами. Алгоритм получил название Neural Optimal Transport (NOT). Он создан на базе глубинных нейронных сетей и использовании независимых друг от друга наборов данных.
В наших статьях и докладах (первая и вторая) мы показали, что новый алгоритм превосходит существующие методы в ряде экспериментов, в том числе и в задаче стилизации изображений. При этом он имеет гораздо меньше сложно настраиваемых гиперпараметров, чем другие существующие методы, а результат его работы хорошо интерпретируем.
Мы надеемся, что результаты нашей работы повысят скорость и качество переноса данных из одного домена в другой и, как следствие, помогут создавать большие и качественные обучающие наборы. Эту надежду подпитывает большой интерес, который проявили к нашим постерам другие участники конференции. Если вам также интересно наше исследование, прикладываю ссылку на наш репозиторий с реализацией нашего алгоритма на фреймворке PyTorch. В репозитории также можно найти и постер.
Что еще было интересного?
В основной части конференции мне понравилось несколько докладов. Среди них доклад Син Чао Лю и его коллег, в котором предлагается подход к доменному переносу на основе теории оптимальной транспортировки и моделей с простыми дифференциальными уравнениями; доклад Туомаса Кюнкянниеми и коллег, в котором рассказали о роли классов датасета ImageNet в популярной метрике для генеративных моделей FID; доклад Захра Кадходайе и коллег, которые разработали вероятностную модель на основе марковских вейвлетов для синтеза изображений. Также не могу не отметить работу наших коллег из AIRI, которые, как и мы, занимаются оптимальным транспортом.
Чем мы занимались в свободное время?
Было бы неправильно провести почти неделю в экзотической африканской стране и посвятить его исключительно конференции. В первую очередь мы познакомились с местной кухней. Почти вся она показалась мне довольно острой, особенно чай: кажется, его там целиком делают из имбиря.
На четвертый день, когда начались воркшопы, мы отправились в Мемориальный центр геноцида. Это тихое место оставило довольно грустное впечатление.
Ближе к вечеру мы посетили местный рынок, на котором нам не очень понравилось. Во-первых, там было очень тесно. Во-вторых, нас сразу обступили местные торговцы, которые непрерывно зазывали нас что-нибудь у них купить. Ну а в-третьих, сувениры, которые мы там взяли, оказались столь же дорогими, что в лавке аэропорта, но гораздо хуже качеством.
В последний день нашего пребывания мы согласились поучаствовать в сафари. Это удовольствие не из дешевых — 235 долларов с человека. Но оно заняло целый день и было довольно увлекательным.
Водитель рано утром забрал нас из гостиниц и повез в Национальный парк Акагера, расположенный на границе с Танзанией. Машина представляла собой просторный шестиместный джип с открывающейся крышей. Так вышло, что нас, ученых из AIRI и Сколтеха, набралось как раз пятеро, поэтому в дороге были все свои.
Сафари заключалось в следующем: водитель 7-8 часов ездил по парку и выискивал для нас животных, на которых можно было посмотреть и сфотографировать. Один раз мы останавливались пообедать местным аналогом шаурмы, а еще один раз — сфотографироваться на большой поляне в окружении животных. За весь день нам удалось посмотреть на зебр, жирафов, антилоп, буйволов и еще нескольких экзотических зверей, но слонов и львов застать не вышло. Зато повезло с погодой: в день сафари было около 20 градусов.
Заключение
Резюмируя свои впечатления от этой поездки, я остался доволен. Все трудности от подготовки к дороге и тяготы перелета (обратно мы добирались сутки) с лихвой компенсирует тот опыт, который мы получили и которым поделились с другими.
Отдельно радует, что важнейшее событие в мире машинного обучения не закрывает двери для россиян, которым есть чем поделиться со своими зарубежными коллегами. Надеюсь, в дальнейшем также удастся съездить на ICLR и другие конференции такого уровня.