Новые инструменты Midjourney: ретекстурирование и редактор изображений с компьютера

BOOX · 4/11/24

Разработчики Midjourney в октябре разрешили пользователям редактировать уже существующие изображения.

Обновленный редактор может привести к взрывному росту объема ИИ-сгенерированного контента в соцсетях. Скорее всего, рано или поздно его придется маркировать. Как улучшили Midjourney, рассказываю эксперты.

Что научилась делать Midjourney

В новой версии редактора представлено два важных нововведения.

Первое — редактор изображений, позволяющий загружать файлы с компьютера и затем расширять, обрезать, перерисовывать, добавлять или изменять элементы на них.

Визуал, созданный в Midjourney с помощью функции редактора и промпта green eyes

Второе — режим ретекстурирования изображения. Этот режим анализирует форму сцены и преображает изображение, меняя освещение, материалы и поверхности.

После небольшого ожидания сразу появляются четыре версии картинки, каждая в своем уникальном стиле, так что можно выбрать любую. Интересно, что каждый раз нейросеть генерирует варианты на основе случайных чисел, и, повторив ретекстурирование, можно получить новые стили.

Визуал, созданный в Midjourney с помощью функции реструктурирования и промпта realistic photo

Визуал, созданный в Midjourney с помощью функции реструктурирования и промпта realistic style

Эти функции доступны пользователям, которые ранее сгенерировали не менее 10 000 изображений, оплачивали подписку ежемесячно в течение года или приобрели годовую подписку. Все промпты на английском, так как зарубежные сервисы редко поддерживают русский язык.

С такими возможностями нейросеть теперь является одной из самых передовых генеративных моделей. Простые команды позволяют получать качественно модифицированные изображения, точно соответствующие запросу.

Прежде ИИ-редакторы, или «инпейнты», имели недостатки: они размывали края и могли добавлять неподходящие элементы и цвета. В Midjourney решили эту проблему, добившись более точного и гармоничного редактирования.

В режиме редактора эффективно себя показала функция ресайзов для изменения размера любой картинки. Например, можно поднять изображение вверх в рабочем поле, и нейросеть автоматически дорисует его снизу. Функцию можно применять не только снизу, но и слева, справа — в любом направлении.

Изображение создано в Leonardo.ai и дорисовано снизу в Midjourney

Нейросеть может отказаться работать с запросом, посчитав его неподобающим. Однако чаще всего результат оказывается удачным, и нейросеть лучше своих конкурентов превращает крупный план человека в общий, дорисовывая фигуру в полный рост.

Изображение создано в Leonardo.ai и дорисовано снизу и сбоку в Midjourney

Работа с готовыми изображениями — закономерный шаг в развитии генеративных нейросетей. Генерировать изображения с нуля проще, чем дорабатывать готовые, так как в этом случае модель создает изображение из шума, постепенно формируя целую картину.

Для редактирования существующего изображения ИИ должен сначала понять, что уже нарисовано, построить физическую модель сцены, включая взаимодействие объектов, а затем гармонично вписать новые элементы, сохранив стиль и цветовую палитру. Это значительно сложнее, так как требует комплексного подхода к композиции и точности работы с изображением.

Почему из-за новых инструментов вновь заговорили о маркировке контента

Технический прогресс Midjourney и других генеративных сетей вновь обострил обсуждение необходимости маркировки контента, созданного с участием ИИ.

Маркировка может защитить пользователей соцсетей от фейков. Но нейросети пока не обладают технической возможностью добавлять на изображения скрытые вотермарки без ухудшения качества генерации.

Маркировка должна сигнализировать об ИИ-происхождении файла, но разработчики Midjourney эту функцию пока не реализовали.

В процессе генерации изображения нейросеть берет случайное шумовое поле, как аналоговые помехи на экране старого телевизора, и постепенно уточняет его, получая контуры и наложенные фильтры. Эту последовательность модель повторяет до получения желаемого результата.

Внедрение маркировки можно было бы реализовать через алгоритмы, создающие уникальные шаблоны шума, которые нейросеть сможет опознать. Однако для того чтобы скрытый паттерн не ухудшал качество изображения, его нужно встраивать в небольших количествах и делать это нерегулярно.

Такая маркировка может быть более заметной на малых участках изображения, где паттерн проявляется как отдельный элемент. Примерно по такому же принципу работают крупные языковые модели (LLM), встраивая маркировку на уровне предсказанных токенов.

Хотя компании, такие как OpenAI, утверждают, что это не влияет на качество текста, при сравнении маркированных и немаркированных текстов разница иногда видна, поэтому такие подходы пока не получили широкого распространения.

Маркировка сгенерированных изображений помогает различать контент, созданный ИИ, и реальные изображения. Социальные сети, например, могут встроить специальные алгоритмы для распознавания скрытых знаков.

При загрузке изображения такие алгоритмы сканируют файл: если находят скрытый паттерн, добавляют метку, если нет — изображение остается без маркировки.

Без подобных маркеров у соцсетей практически нет инструментов для уверенного определения, сгенерировано ли изображение ИИ. Поэтому давление на разработчиков, в том числе Midjourney, чтобы они добавили такую маркировку, вполне обосновано.

В будущем, вероятно, крупные сервисы будут обязаны включать скрытую маркировку для борьбы с фейковым контентом. Особенно это актуально в условиях распространения фейковых новостей, подкрепленных реалистичными изображениями, которым многие верят.

Существует много локальных моделей, запускаемых прямо на компьютерах пользователей и генерирующих изображение достойного качества. В этих локальных моделях маркировка не предусмотрена, и обязать ее делать никто не сможет.

Как будет эволюционировать нейросеть

Сначала Midjourney сосредоточилась на качестве генерации, а затем постепенно начала усложнять свой продукт. Невозможно сразу создать очень сложную систему: развитие должно идти поэтапно, от простого к более сложному. Логичный шаг — постепенное наращивание функционала.

Можно предположить, что в течение года появится возможность загрузки небольших фотографий, которые нейросеть достраивает до полноценной сцены, или даже 3D-модели.

Если загрузить фото памятника, в теории, модель сможет восстановить площадь вокруг, создавая эффект присутствия, где пользователь может осмотреться и исследовать пространство. Пока это можно лишь частично реализовать через функции вроде Resize, однако полноценная 3D-модель каждого объекта на фото, где возможны изменения ракурсов, — это следующий технологический рубеж.

Загрузив изображение в нейросеть, можно будет повернуть его, чтобы посмотреть на сцену под другим углом. Пока таких реализаций нет, но это направление, к которому, скорее всего, придут со временем.

Возможность API для Midjourney — следующий стратегический шаг, позволяющий интегрировать их технологии в сторонние сервисы, включая соцсети и приложения, такие как Instagram*.

На данный момент публичного API у Midjourney нет, но отказаться от этой части рынка было бы нерационально. Если они не предложат API, такие платформы, как Stable Diffusion, могут занять эту нишу, доработав свои продукты до нужного уровня и открыв путь к интеграциям.

Для просмотра ссылки необходимо нажать Вход или Регистрация

Поиск

Новые инструменты Midjourney: ретекстурирование и редактор изображений с компьютера

BOOX

Стаж на ФС с 2012 года

Что научилась делать Midjourney

Почему из-за новых инструментов вновь заговорили о маркировке контента

Как будет эволюционировать нейросеть

Похожие темы

Новые инструменты Midjourney: ретекстурирование и редактор изображений с компьютера

BOOX

Стаж на ФС с 2012 года

Что научилась делать Midjourney​

Почему из-за новых инструментов вновь заговорили о маркировке контента​

Как будет эволюционировать нейросеть​

Похожие темы

Что научилась делать Midjourney

Почему из-за новых инструментов вновь заговорили о маркировке контента

Как будет эволюционировать нейросеть