Stable Diffusion 3: обошел ли он Midjourney V6 и Dall-E 3?
Stability AI только что взорвала мир генерации изображений с помощью ИИ: Stable Diffusion 3 (SD3). В настоящее время это самый передовой и мощный генератор изображений, который они выпустили, с огромными обновлениями по сравнению с уже впечатляющим Stable Diffusion 2.1, выпущенным более года назад.
Что нового в Stable Diffusion 3?
- Поддержка рендеринга текста
- Улучшенная производительность
- Подсказки с несколькими темами
- Улучшенное качество изображений
SD3 также использует архитектуру диффузионного трансформера, аналогичную Sora от OpenAI. Не подразумевает ли это, что SD3 также способен генерировать видео? Это интригующий вопрос, обсуждение которого оставим на другой раз.
В этой статье сравним изображения, сгенерированные SD3, с двумя самыми популярными и мощными генераторами изображений на основе ИИ — Midjourney V6 и Dall-E 3.
Запрос № 1
Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat.
Фотография красной сферы поверх синего куба. За ними находится зеленый треугольник, справа собака, слева кошка.
Вот изображение, сгенерированное Stable Diffusion 3:
Больше привлекает внимание зеленый оттенок на шеях кошки и собаки. Похоже, SD3 умеет понимать окружающую обстановку и имитировать отражения.
Не научилась ли она этому трюку втайне от всех, используя данные о закулисных фотосессиях с зелеными экранами.
В отличие от этого, изображения Midjourney V6 и Dall-E 3, хотя и впечатляют, но по-разному.
Midjourney V6 странным образом разместил животных поверх синих кубов, тогда как результаты Dall-E 3 были сбивающими с толку. SD3 берет верх в этом раунде, фактически соответствуя тому, что было запросе.
Запрос № 2
Resting on the kitchen table is an embroidered cloth with the text ‘good night’ and an embroidered baby tiger. Next to the cloth there is a lit candle. The lighting is dim and dramatic.
На кухонном столе лежит вышитая ткань с надписью «спокойной ночи» и вышитым детенышем тигра. Рядом с тканью горит свеча. Освещение тусклое и драматичное.
Вот что придумал SD3:
Это красивая фотография крупным планом. SD3 размывает края и фокусируется на тигре и тексте. Детали вышивки тоже фантастические. Вы можете буквально почувствовать шершавую текстуру стежков, а также то, как она становится более размытой по мере удаления.
А теперь посмотрим, как выглядят результаты конкурентов:
Midjourney, как и ожидалось, выходит с этими фирменными темными тонами и точным освещением. Dall-E 3 также отлично справился с этим заданием, хотя оба они добавили несколько других элементов, которых нет в запросе.
Для кого-то это похоже на жульничество? Строгая приверженность SD3 подсказке делает его победителем... хотя не будем никого винить за то, что он был поражен художественной интерпретацией Midjourney.
Запрос № 3
Photo of an 90’s desktop computer on a work desk, on the computer screen it says “welcome”. On the wall in the background we see beautiful graffiti with the text “SD3” very large on the wall.
Фотография настольного компьютера 90-х годов на рабочем столе, на экране компьютера написано «добро пожаловать». На стене на заднем плане мы видим красивое граффити с текстом «SD3» очень большими буквами на стене.
Вот как Stable Diffusion 3 интерпретировал запрос:
То, как огромный текст сливается с фоном, настолько бесшовно. И обратите внимание, насколько единообразен шрифт. Это похоже на иллюстрацию, которая вышла прямо из Photoshop.
Теперь давайте посмотрим, что придумали Midjourney и Dall-E 3:
С точки зрения стиля и деталей Midjourney легко выбрать. Но в запросе было требование на очень крупный текст на стене — Midjourney этого не сделал. Поэтому для согласованности SD3 здесь лучше всего. Результат Dall-E 3 — беспорядок.
Запрос № 4
Three transparent glass bottles on a wooden table. The one on the left has red liquid and the number 1. The one in the middle has blue liquid and the number 2. The one on the right has green liquid and the number 3.
Три прозрачных стеклянных бутылки на деревянном столе. В левой бутылке красная жидкость и номер 1. В средней — синяя жидкость и номер 2. В правой — зеленая жидкость и номер 3.
SD3 идеально отобразил то, что было запрошено в подсказке.
Вот результаты от Midjourney и Dall-E 3:
Изображения от Midjourney и Dall-E 3 также были впечатляющими, и каждый генератор представлял свои уникальные эстетические качества. Особенно хорошо получилось изображение у Midjourney со старыми столами и ржавыми бутылками.
Честно говоря, SD3 берет верх благодаря своему безумно точному пониманию запроса. Когда вы хотите получить точно то, что описали, SD3 это сделает. Но Midjourney по-прежнему остается несравненным, когда речь заходит о том уникальном, художественном выражении, которое может поднять изображения на новый уровень.
Глядя на примеры изображений, становится ясно, что SD3 преуспевает в генерации текста и согласованности запроса, возможно, превосходя своих крупнейших конкурентов. Однако с точки зрения качества изображения Midjourney является королем.
Но почему это так важно?
В отличие от своих основных конкурентов, Stable Diffusion является и всегда был проектом с открытым исходным кодом, совершенно бесплатным для использования! Это означает, что вскоре вы сможете скачать SD3 и запускать его локально бесплатно. Эта свобода огромна.
Но есть и огромный недостаток — это также вызывает серьезные этические проблемы. Представьте себе потенциал для еще более убедительных поддельных изображений и видео.
Технология SD3 также намекает на то, что ее потенциал выходит за рамки изображений. Находимся ли мы на грани конкуренции с генераторами видео, такими как Sora от OpenAI или Genie от LumaLab? Теперь все становится действительно интересно.