IF: нейросеть, которая умеет в руки и текст

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Синтез изображений из текста прошел долгий путь от появления DALL-E до Stable Diffusion. Несколько дней назад был открыт код большой (4.3 млрд параметров) модели для генерации изображений, которая привлекла внимание своим новым подходом к генерации - DeepFloyd IF. В этой статье я кратко рассмотрю архитектуру модели, ее возможности и приведу примеры ее работы. Кроме того, я поделюсь ссылками на онлайн-демо на платформе Replicate для лёгкого запуска без нужды устанавливать нейросеть на свой компьютер.

An image of a sign in the hands of a man with "Habr" written on it
An image of a sign in the hands of a man with "Habr" written on it

Архитектура

IF - это трехступенчатая модель, состоящая из кодера замороженного текста и трех каскадных модулей диффузии пикселей. Кодировщик замороженного текста основан на T5, который извлекает текстовые эмбеддинги из входных подсказок. Затем эти эмбеддинги поступают в архитектуру UNet, которая была усовершенствована перекрестным вниманием.

Подход DeepFloyd очень похож на подход Google в своём Imagen.

Модель состоит из трех основных элементов:

  1. Базовая модель: На этом этапе генерируется изображение размером 64x64 px на основе текстовой подсказки. (В демо используется IF-I-XL)

  2. Первая модель суперразрешения: Она увеличивает базовое изображение до 256x256 px, добавляя больше деталей. (В демо используется IF-II-L)

  3. Вторая модель суперразрешения: На этом последнем этапе изображение увеличивается до высокого разрешения 1024x1024 px. (В демо используется Stable X4)

Модульный подход позволяет добиться высокой эффективности и впечатляющей производительности, превосходя текущие современные модели. IF достигает оценки FID 6,66 на наборе данных COCO, что гораздо выше, чем у DALL-E-2 (10.39), Stable Diffusion (15.5) и даже чем у Imagen (7.27).

Для запуска самого максимального набора моделей (IF-I-XL; IF-II-L; Stable X4) может понадобиться 24 ГБ видеопамяти. При использовании разгрузки на CPU - 14 ГБ.

Примеры работы

Image of a dog in a sunglasses

An image of a forest in a snowstorm (16:9)

A painting of a cat

Онлайн демонстрации

Вы можете воспользоваться демонстрацией, которую я создал и запустил на Replicate под работой Nvidia A100. Репозиторий: https://github.com/0x7o/IF-replicate

Вы также можете использовать официальную демонстрацию на HuggingFace Spaces, но там гораздо меньше параметров для настройки генерации.

Заключение

DeepFloyd IF - это ещё один шаг в области синтеза изображения из текста, устанавливающий новые стандарты. С дальнейшим развитием этой области мы можем ожидать еще более мощных и творческих моделей.

  • Официальный репозиторий - https://github.com/deep-floyd/IF

  • Официальная демонстрация - https://huggingface.co/spaces/DeepFloyd/IF

  • Демонстрация на Replicate - https://replicate.com/0x7o/if-v1.0

  • Код демонстрации - https://github.com/0x7o/IF-replicate

Что думаете Вы?

Источник: https://habr.com/ru/articles/733074/


Интересные статьи

Интересные статьи

Статья выпущена как дополнение к предыдущей и показывает, как можно сделать Active object, работающий асинхронно в среде Qt, но при этом не использующий события.
Любите оператор '?.'? А кто же не любит? Эти лаконичные проверки на null нравятся многим. Однако сегодня мы поговорим о случае, когда оператор '?.' только создаёт иллюзию безопасности. ...
Рекрутеры используют всё более сложное ПО и инструменты для анализа и сопоставления присылаемых резюме с размещёнными вакансиями и описанием должностных обязанностей в ни...
Мы в команде обожаем настолки. И чем сложнее их механика, тем интереснее. Однажды мы поняли, что у нас скопилось много набитых шишек и соглашений о том, как поступать в той или ино...
Мы успешно завершили второй конкурс IT-статей «ТехноТекст». В этот раз у нас было 253 заявки, 97 финалистов и 10 дней до мероприятия, на котором мы обещали назвать победителей. Длинные бессон...