FLUX — новая нейросеть для генерации картинок по текстовому запросу от разработчиков популярной Stable Diffusion. Отличается высокой точностью, способностью работать со сложными сценами и создавать реалистичные изображения. У FLUX есть 3 модели разного предназначения, доступные через сторонние сервисы. Разбираем версии нейросети, объясняем фишки и рассказываем, как работать с программой.
Обзор нейросети FLUX: как генерировать картинки по тексту и фото
Модели FLUX
FLUX.1 [pro] — лучшая версия, доступна через Partners Replicate, fal.ai и mystic. Точнее всех следует промпту, выдает максимально детализированные картинки высокого качества. Подходит для коммерческого использования. Генерация каждой картинки обойдется в $0,05.
FLUX.1 [dev] — модель доступна на HuggingFace, Replicate, fal.ai, mystic, deepinfra и hyperbolic. Качество и точность не уступают pro-версии, но «эффективность выше, чем у стандартной версии того же размера». Генерации нельзя использовать в коммерческих целях. Можно работать бесплатно, при генерации через API за каждую картинку нужно платить $0,03.
FLUX.1 [schnell] — самая быстрая модель для локальной разработки и персонального использования. Следует промптам хуже остальных и выдает картинки более низкого качества. Доступна на HuggingFace, Replicate, fal.ai, mystic и deepinfra. При генерации по API нужно заплатить $0,003.
Как писать промпты
Принцип работы с FLUX такой же, как с другими нейросетями для генерации картинок. Чтобы получить изображение, нужно написать текстовый запрос. Можно задать пару параметров, и программа сама додумает детали. Либо расписать подробно: главный объект, стиль, оформление фона, эффекты, дополнительные элементы, качество графики и т.д.
Как составлять запросы к нейросетям
Пример простого запроса «Фотография сарая на поле» с сайта Black Forest Labs — разработчика FLUX.
А вот так выглядит изображение, сгенерированное по более сложному промпту: «Подробный кинематографический рендеринг старого пыльного детального ЭЛТ-монитора на деревянном столе в тусклой комнате с предметами вокруг, грязной грязной комнате. На экране мягко светятся буквы FLUX. Высокодетализированная визуализация твердой поверхности».
Как сгенерировать изображение
Модель [pro] доступна только платно, поэтому мы покажем принцип работы на оставшихся двух. С [pro] можно работать по аналогии.
Работать будем через платформы HuggingFace и Replicate. У остальных сервисов интерфейс похожий, поэтому на них останавливаться не будем.
Перейти на сторонний ресурс можно с сайта нейросети.
Как работать с FLUX [dev] в HuggingFace
Сначала нужно войти или зарегистрироваться на платформе HuggingFace. После регистрации можно пользоваться моделькой. Писать запрос можно в строке Text to Image справа, либо сначала кликнуть на Use this model. Нейронка откроется в новом окне, где не будет лишней информации.
Чтобы сгенерировать картинку, в поле для ввода промпта нужно ввести текст. Я для примера сгенерировала розовый пончик.
Чтобы сгенерировать картинку в конкретном стиле, нужно указать это в запросе. Например, я попросила нейросеть создать чашку кофе в пикселях.
Из примечательного: у FLUX есть библиотека моделей, где можно скопировать стиль. Ссылки на исходники — прямо под полем для промпта. Нас интересует раздел Adapters, для него ссылкой указано количество моделей — 2594 models.
В открывшейся библиотеке можно кликнуть на понравившийся стиль и посмотреть референсы.
Для примера я взяла стиль The Point и сгенерировала картинку. Ниже — референс и результат.
Как работать c FLUX [schnell] в HuggingFace
Так же, как и с FLUX [dev]. Для сравнения возможностей двух версий я отправила такие же самые запросы в [schnell]. Вот что получилось.
Для второй картинки нужен был пиксельный стиль. Выяснилось, что по этому параметру [schnell] явно уступает [dev].
И бесплатных стилистических моделей в этой версии в разы меньше.
Как попробовать FLUX [dev] в Replicate
При переходе на страницу Replicate выдает окошко с просьбой войти через GitHub и добавить метод платежа либо попробовать бесплатно избранные модели (это та же подборка готовых стилей, о которых мы говорили в разделах про HuggingFace). Задать стандартный бесплатный промпт платформа не дает, поэтому пойдем сразу через избранные модели.
Протестируем вариант с избранными моделями. Страница с ними откроется, если нажать на featured models. Мы для примера протестируем модель flux-dreamscape.
Чтобы картинка получилась в конкретном стиле, в промпт нужно вписать триггерное слово, которое активирует преднастроенный стиль модели. Например, для стиля dreamscape триггерное слово — BSstyle004.
При желании можно настроить, например, ширину и высоту изображения, количество генерируемых картинок, число шагов, которое сделает нейросеть, чтобы выдать изображение, формат картинки (WebP, JPG, PNG).
Я оставила стандартные параметры и сделала запрос на птичку в золотой клетке. Вот результат.
Как попробовать FLUX [schnell] в Replicate
На той же странице меняем [dev] на [schnell]. Кликаем на выпадающий список в разделе model и выбираем нужную версию.
Стиль оставили тот же — dreamscape. Картинка получилась попроще, но запрос в точности выполнен.
Возможности FLUX
У FLUX есть 3 интересные фишки для генерации изображений.
Генератор промптов в HuggingFace. Первый столбец — настройки. Можно указать пол, телосложение, прическу, ракурс и детали картинки. Добавить стиль какого-либо фотографа или художника.
Второй столбец — для сгенерированного текстового запроса.
Третий — Large Language Model, или большая языковая модель, — это инструмент, создающий длинный текст на основе короткого входного запроса. Например, по промпту она может выдать небольшое описание, что-то вроде отрывка из рассказа.
Для примера выберем: арт, ракурс слегка сверху, среднее телосложение, молодой мужчина, вьющиеся волосы, белая рубашка, подтяжки, бабочка, черные брюки. Картинка — в стиле художника Энди Уорхола.
Нажимаем «Generate Promt».
В столбце посередине появится готовый запрос, который нужно скопировать. В правом верхнем углу поля есть значок для копирования текста.
Протестированный скопированный запрос можно в модели на HuggingFace или Replicate.
Сгенерированное изображение:
Inpainting. Функция, которая позволяет выделить область изображения и заменить её новым содержимым. На многие запросы для картинок и фото нейросеть выдает ошибку, поэтому для успешной генерации нужно отправлять несколько запросов.
Интерфейс простой: слева — поле для загрузки картинки, под ним — строчка для промпта, справа — зона для сгенерированного изображения.
После загрузки картинки нужно нажать на карандаш и выделить область для изменений. В текстовом поле — прописать запрос: как изменить выделенную зону.
Пример — к мужчине добавили львенка.
Controlnet. FLUX умеет генерировать изображение по фото. Для работы с этим инструментом нужно загрузить картинку-референс и добавить промпт. Соответствующие поля расположены слева.
Я взяла картинку котенка и сделала несколько пробных запросов. При стандартных настройках нейросеть неохотно добавляет дополнительные элементы и выдает слегка измененную копию. Самая близкая к исходнику генерация получилась при промпте “a playing cat”.
А вот если увеличить параметр Guidance (следование запросу) до 9 с базовых 4, FLUX точнее выполняет промпт, но сходство ослабевает.
Что в итоге
Модель FLUX.1 [dev] генерирует картинки более высокого качества, реалистичные и детализированные. Версия [schnell] немного уступает, но тоже создает очень достойные изображение, причем существенно быстрее.
Генератор сложных промптов помогает грамотно составить запрос и предлагает множество готовых параметров, чтобы создавать максимально проработанные изображения.
Inpainting часто выдает ошибки — причина неизвестна, возможно, нужно точнее отрисовывать границы выделенной области.
Controlnet корректно создает изображение по загруженной картинке. При базовых параметрах получается нейросетевая копия исходника, без дополнительных деталей. А если повысить степень следования запросу, FLUX точнее выполнит промпт, но он может сильно отличаться от исходной картинки.
СВЕЖИЕ СТАТЬИ
Другие материалы из этой рубрики
Не пропускайте новые статьи
Подписывайтесь на соцсети
Делимся новостями и свежими статьями, рассказываем о новинках сервиса
«Честно» — авторская рассылка от редакции Unisender
Искренние письма о работе и жизни. Свежие статьи из блога. Эксклюзивные кейсы и интервью с экспертами диджитала.