IF: нейросеть, которая умеет в руки и текст

Прежде чем перейти к статье, хочу вам представить, экономическую онлайн игру Brave Knights, в которой вы можете играть и зарабатывать. Регистируйтесь, играйте и зарабатывайте!

Синтез изображений из текста прошел долгий путь от появления DALL-E до Stable Diffusion. Несколько дней назад был открыт код большой (4.3 млрд параметров) модели для генерации изображений, которая привлекла внимание своим новым подходом к генерации - DeepFloyd IF. В этой статье я кратко рассмотрю архитектуру модели, ее возможности и приведу примеры ее работы. Кроме того, я поделюсь ссылками на онлайн-демо на платформе Replicate для лёгкого запуска без нужды устанавливать нейросеть на свой компьютер.

An image of a sign in the hands of a man with "Habr" written on it

Архитектура

IF - это трехступенчатая модель, состоящая из кодера замороженного текста и трех каскадных модулей диффузии пикселей. Кодировщик замороженного текста основан на T5, который извлекает текстовые эмбеддинги из входных подсказок. Затем эти эмбеддинги поступают в архитектуру UNet, которая была усовершенствована перекрестным вниманием.

Подход DeepFloyd очень похож на подход Google в своём Imagen.

Модель состоит из трех основных элементов:

Базовая модель: На этом этапе генерируется изображение размером 64x64 px на основе текстовой подсказки. (В демо используется IF-I-XL)
Первая модель суперразрешения: Она увеличивает базовое изображение до 256x256 px, добавляя больше деталей. (В демо используется IF-II-L)
Вторая модель суперразрешения: На этом последнем этапе изображение увеличивается до высокого разрешения 1024x1024 px. (В демо используется Stable X4)

Модульный подход позволяет добиться высокой эффективности и впечатляющей производительности, превосходя текущие современные модели. IF достигает оценки FID 6,66 на наборе данных COCO, что гораздо выше, чем у DALL-E-2 (10.39), Stable Diffusion (15.5) и даже чем у Imagen (7.27).

Для запуска самого максимального набора моделей (IF-I-XL; IF-II-L; Stable X4) может понадобиться 24 ГБ видеопамяти. При использовании разгрузки на CPU - 14 ГБ.

Примеры работы

Image of a dog in a sunglasses

An image of a forest in a snowstorm (16:9)

A painting of a cat

Онлайн демонстрации

Вы можете воспользоваться демонстрацией, которую я создал и запустил на Replicate под работой Nvidia A100. Репозиторий: https://github.com/0x7o/IF-replicate

Вы также можете использовать официальную демонстрацию на HuggingFace Spaces, но там гораздо меньше параметров для настройки генерации.

Заключение

DeepFloyd IF - это ещё один шаг в области синтеза изображения из текста, устанавливающий новые стандарты. С дальнейшим развитием этой области мы можем ожидать еще более мощных и творческих моделей.

Официальный репозиторий - https://github.com/deep-floyd/IF
Официальная демонстрация - https://huggingface.co/spaces/DeepFloyd/IF
Демонстрация на Replicate - https://replicate.com/0x7o/if-v1.0
Код демонстрации - https://github.com/0x7o/IF-replicate

Что думаете Вы?

Источник: https://habr.com/ru/articles/733074/

Вернуться к списку

Интересные статьи

Размышление об Active Object в контексте Qt6. Часть 2.5

Статья выпущена как дополнение к предыдущей и показывает, как можно сделать Active object, работающий асинхронно в среде Qt, но при этом не использующий события.

Использование оператора '?.' в foreach: защита от NullReferenceException, которая не работает

Любите оператор '?.'? А кто же не любит? Эти лаконичные проверки на null нравятся многим. Однако сегодня мы поговорим о случае, когда оператор '?.' только создаёт иллюзию безопасности. ...

Использование алгоритмов обработки текстов на естественных языках для создания качественного резюме

Рекрутеры используют всё более сложное ПО и инструменты для анализа и сопоставления присылаемых резюме с размещёнными вакансиями и описанием должностных обязанностей в ни...

Игровая механика для скрам-команды, которая любит настолки

Мы в команде обожаем настолки. И чем сложнее их механика, тем интереснее. Однажды мы поняли, что у нас скопилось много набитых шишек и соглашений о том, как поступать в той или ино...

«ТехноТекст-2019»: кто в итоге победил и что им за это было

Мы успешно завершили второй конкурс IT-статей «ТехноТекст». В этот раз у нас было 253 заявки, 97 финалистов и 10 дней до мероприятия, на котором мы обещали назвать победителей. Длинные бессон...