
Свет, камера...
Появление моделей Veo и Sora подняло генерацию видео на совершенно новый уровень. Авторы контента проводят множество экспериментов, а коллективы успешно включают эти инструменты в свои маркетинговые операции. Тем не менее, существует недостаток: подавляющее большинство проприетарных платформ собирают пользовательские данные и добавляют заметные или скрытые водяные знаки, которые маркируют результаты как созданные искусственным интеллектом. Для тех, кто отдает предпочтение сохранению приватности, полному контролю и локальным процессам на устройстве, решения с открытым исходным кодом представляют собой идеальное решение, поскольку ряд из них уже достигает качества, сравнимого с Veo.
В материалах данной публикации мы рассмотрим пять наиболее значимых моделей для создания видео, поделившись ключевыми техническими аспектами и примерами роликов, чтобы облегчить оценку их потенциала в генерации видеоконтента. Каждая из моделей размещена на платформе Hugging Face и поддерживает локальный запуск через ComfyUI или иные удобные десктопные приложения для работы с ИИ.
1. Wan 2.2 A14B
Wan 2.2 совершенствует свою диффузионную основу за счет внедрения архитектуры Mixture-of-Experts (MoE), которая распределяет процесс удаления шума по временным шагам между специализированными модулями, повышая общую производительность без дополнительной нагрузки на вычисления. Разработчики также собрали набор эстетических меток (таких как освещение, композиция, контрастность, цветовая гамма), чтобы упростить управление созданием кинематографических эффектов. По сравнению с предыдущей версией Wan 2.1 объем обучения значительно вырос (+65,6% изображений, +83,2% видео), что привело к улучшениям в динамике движения, семантике и визуальной привлекательности.
Модель Wan 2.2 демонстрирует ведущие показатели среди как открытых, так и коммерческих аналогов. На Hugging Face доступны репозитории для текст-в-видео и изображение-в-видео в варианте A14B: Wan-AI/Wan2.2-T2V-A14B и Wan-AI/Wan2.2-I2V-A14B.
2. Hunyuan Video
HunyuanVideo представляет собой открытую базовую модель для видео с 13 миллиардами параметров, обученную в латентном пространстве с пространственно-временными характеристиками через каузальный 3D вариационный автоэнкодер (VAE). Ее трансформер применяет схему "два потока в один": токены текста и видео сначала обрабатываются отдельно с полным вниманием, а затем объединяются, при этом декодерная мультимодальная LLM выступает в роли энкодера текста для повышения точности следования инструкциям и фиксации деталей.
Экосистема с открытым кодом охватывает исходный код, веса, поддержку вывода на одном или нескольких GPU (xDiT), веса в формате FP8, интеграции с Diffusers и ComfyUI, демонстрацию на Gradio, а также бенчмарк Penguin Video Benchmark.
3. Mochi 1
Mochi 1 — это 10-миллиардный Асимметричный Диффузионный Трансформер (AsymmDiT), обученный с нуля и выпущенный под лицензией Apache 2.0. Он сочетается с Асимметричным VAE, который сжимает видео в 8x8 пространственно и 6x временно в латент с 12 каналами, отдавая приоритет визуальной емкости перед текстовыми аспектами при использовании единственного энкодера T5-XXL.
По результатам предварительных тестов команда Genmo относит Mochi 1 к передовым открытым моделям с высокой детализированностью движения и надежным соответствием запросам, стремясь сократить разрыв с проприетарными системами.
4. LTX Video
LTX-Video — это генератор видео из изображений на базе Диффузионного Трансформера (DiT), ориентированный на высокую скорость: он создает видео с частотой 30 кадров в секунду при разрешении 1216x704 быстрее реального времени, обучаясь на обширном разнообразном наборе данных для баланса между динамикой и качеством изображения.
Серия включает разнообразные варианты: 13B для разработки, 13B дистиллированный, 2B дистиллированный, квантизованные в FP8 версии, плюс апскейлеры для пространства и времени, а также готовые рабочие процессы для ComfyUI. Если требуется быстрая итерация и четкая анимация на основе одного изображения или короткой последовательности, LTX-Video заслуживает внимания.
5. CogVideoX-5B
CogVideoX-5B выступает в роли более детализированной версии по сравнению с базовой 2B-моделью, обученной в формате bfloat16 и рекомендуемой для запуска в том же формате. Она производит 6-секундные клипы с частотой 8 кадров в секунду при фиксированном разрешении 720x480 и работает с английскими промптами длиной до 226 токенов.
Документация модели описывает прогнозируемое потребление Video Random Access Memory (VRAM) для вывода на одном или нескольких GPU, стандартные времена выполнения (например, около 90 секунд для 50 шагов на одном H100), а также влияние оптимизаций Diffusers, таких как выгрузка на CPU и тайлинг/слайсинг VAE, на объем памяти и производительность.
Выбор модели для генерации видео
Вот несколько общих рекомендаций, которые помогут подобрать подходящую модель генерации видео в зависимости от ваших задач.
- Для кинематографического стиля и разрешения 720p/24 на одной видеокарте 4090: Wan 2.2 (A14B для основных операций; гибридный TI2V 5B для эффективного 720p/24)
- Для универсальной базовой T2V/I2V-модели большого масштаба с качественной динамикой и полным стеком открытого ПО: HunyuanVideo (13B, параллелизм xDiT, веса FP8, Diffusers/ComfyUI)
- Для открытой, удобной для модификаций предварительной версии на уровне передового уровня с современной анимацией и четким планом исследований: Mochi 1 (10B AsymmDiT + AsymmVAE, Apache 2.0)
- Для реального времени I2V и возможности редактирования с апскейлерами и рабочими процессами ComfyUI: LTX-Video (30 fps при 1216x704, варианты 13B/2B и FP8)
- Для компактных 6-секундных T2V в 720x480 с надежной поддержкой Diffusers и квантизацией для малого VRAM: CogVideoX-5B