Midjourney запустила раннюю версию модели V8 для тестирования сообществом. Скорость создания изображений выросла примерно в пять раз, качество деталей повысилось, но за продвинутые опции теперь приходится платить в четыре раза больше.
Компания выложила альфа-версию модели V8 на сайт Alpha и попросила пользователей как следует её проверить, поделиться впечатлениями. Разработчики подчёркивают: это полностью новая модель со своими особенностями, сильными и слабыми сторонами, которая может потребовать других стратегий для запросов к модели.
По данным Midjourney, генерация изображений теперь работает около пяти раз быстрее, чем раньше. Появился режим --hd для рендеринга в разрешении 2K изначально, а также --q 4 для повышения связности картинок. V8 поддерживает разные соотношения сторон и параметры вроде --chaos, --weird, --exp, --raw. Профили персонализации из V7, доски настроения и ссылки на стили (srefs) должны сохраниться и работать совместимо с предыдущей версией.
Midjourney отмечает существенный прогресс в следовании сложным указаниям. Понимание индивидуальных стилей через персонализацию, ссылки на стили и доски настроения стало заметно лучше, изображения выходят более цельными и проработанными. Рендеринг текста внутри картинок тоже надёжнее, если желаемый текст взять в кавычки в запросе, уверяют разработчики.
Диффузионная модель всё ещё сбоит на запутанных запросах
С другой стороны, как чисто диффузионная модель, Midjourney уступает конкурентам, которые добавляют авторегрессионные элементы в свои пайплайны генерации. Такие модели, как Nano Banana от Google и GPT image 1.5 от OpenAI, используют гибридные архитектуры для точного выполнения промптов — разница была заметна на старых версиях Midjourney.
Первые тесты показывают, что V8 ещё не наверстала упущенное, хотя окончательных выводов рано делать. В проверке на сложный промпт с астронавтом — мой неформальный бенчмарк — Midjourney сильно проиграла авторегрессионным моделям. Абстрактная идея лошади, скачущей на астронавте (а не наоборот), оказалась не по зубам. Даже прямой соперник Flux справился чуточку лучше. По мере того как генераторы изображений переходят на смешанные архитектуры, чисто диффузионный подход Midjourney может потерять привлекательность для тех, кто требует точного контроля над промптами.
A hyper-realistic DSLR photo. A monkey holding a pink banana is sitting on a tiger in the foreground. In the background, a HORSE is RIDING AN ASTRONAUT. The astronaut is underneath like a living "spacesuit horse saddle," and the HORSE is clearly on top, in control, as the rider. Make it 100% unambiguous: the HORSE is the rider and the ASTRONAUT is being ridden, NOT the other way around. High-resolution, sharp focus, realistic lighting.


Разработчики предупреждают: базовый стиль V8 ещё не доработан, для фотореализма или контроля лучше сразу использовать --raw, доски настроения и ссылки на стили. Пока максимум от модели выжимается с полной персонализацией (--stylize 1000), а V8 особенно хороша при сильном упоре на стилизацию и подробных, длинных промптах.
Продвинутые функции в четыре раза дороже без режима Relax на старте
Цены могут неприятно удивить. Задания с --hd, --q 4, ссылками на стили или досками настроения сейчас выполняются в четыре раза медленнее стандартных и стоят столько же в четыре раза больше. Режим Relax, где генерация идёт помедленнее, но бесплатно, на запуске недоступен. Midjourney строит новый кластер серверов для Relax и разрабатывает более дешёвые варианты рендеринга.