Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Статьи

Топ-5 открытых моделей генерации видео

С запуском Veo и Sora генерация видео вышла на новый уровень, но закрытые системы ограничивают приватность. Открытые модели предлагают альтернативу с высоким качеством и локальным запуском. В обзоре рассмотрены топ-5 таких моделей с техническими деталями и демонстрациями.

23 октября 2025 г.
6 мин
0
Топ-5 открытых моделей генерации видео

Свет, камера...

Появление моделей Veo и Sora подняло генерацию видео на совершенно новый уровень. Авторы контента проводят множество экспериментов, а коллективы успешно включают эти инструменты в свои маркетинговые операции. Тем не менее, существует недостаток: подавляющее большинство проприетарных платформ собирают пользовательские данные и добавляют заметные или скрытые водяные знаки, которые маркируют результаты как созданные искусственным интеллектом. Для тех, кто отдает предпочтение сохранению приватности, полному контролю и локальным процессам на устройстве, решения с открытым исходным кодом представляют собой идеальное решение, поскольку ряд из них уже достигает качества, сравнимого с Veo.

В материалах данной публикации мы рассмотрим пять наиболее значимых моделей для создания видео, поделившись ключевыми техническими аспектами и примерами роликов, чтобы облегчить оценку их потенциала в генерации видеоконтента. Каждая из моделей размещена на платформе Hugging Face и поддерживает локальный запуск через ComfyUI или иные удобные десктопные приложения для работы с ИИ.

1. Wan 2.2 A14B

Wan 2.2 совершенствует свою диффузионную основу за счет внедрения архитектуры Mixture-of-Experts (MoE), которая распределяет процесс удаления шума по временным шагам между специализированными модулями, повышая общую производительность без дополнительной нагрузки на вычисления. Разработчики также собрали набор эстетических меток (таких как освещение, композиция, контрастность, цветовая гамма), чтобы упростить управление созданием кинематографических эффектов. По сравнению с предыдущей версией Wan 2.1 объем обучения значительно вырос (+65,6% изображений, +83,2% видео), что привело к улучшениям в динамике движения, семантике и визуальной привлекательности.

Модель Wan 2.2 демонстрирует ведущие показатели среди как открытых, так и коммерческих аналогов. На Hugging Face доступны репозитории для текст-в-видео и изображение-в-видео в варианте A14B: Wan-AI/Wan2.2-T2V-A14B и Wan-AI/Wan2.2-I2V-A14B.

2. Hunyuan Video

HunyuanVideo представляет собой открытую базовую модель для видео с 13 миллиардами параметров, обученную в латентном пространстве с пространственно-временными характеристиками через каузальный 3D вариационный автоэнкодер (VAE). Ее трансформер применяет схему "два потока в один": токены текста и видео сначала обрабатываются отдельно с полным вниманием, а затем объединяются, при этом декодерная мультимодальная LLM выступает в роли энкодера текста для повышения точности следования инструкциям и фиксации деталей.

Экосистема с открытым кодом охватывает исходный код, веса, поддержку вывода на одном или нескольких GPU (xDiT), веса в формате FP8, интеграции с Diffusers и ComfyUI, демонстрацию на Gradio, а также бенчмарк Penguin Video Benchmark.

3. Mochi 1

Mochi 1 — это 10-миллиардный Асимметричный Диффузионный Трансформер (AsymmDiT), обученный с нуля и выпущенный под лицензией Apache 2.0. Он сочетается с Асимметричным VAE, который сжимает видео в 8x8 пространственно и 6x временно в латент с 12 каналами, отдавая приоритет визуальной емкости перед текстовыми аспектами при использовании единственного энкодера T5-XXL.

По результатам предварительных тестов команда Genmo относит Mochi 1 к передовым открытым моделям с высокой детализированностью движения и надежным соответствием запросам, стремясь сократить разрыв с проприетарными системами.

4. LTX Video

LTX-Video — это генератор видео из изображений на базе Диффузионного Трансформера (DiT), ориентированный на высокую скорость: он создает видео с частотой 30 кадров в секунду при разрешении 1216x704 быстрее реального времени, обучаясь на обширном разнообразном наборе данных для баланса между динамикой и качеством изображения.

Серия включает разнообразные варианты: 13B для разработки, 13B дистиллированный, 2B дистиллированный, квантизованные в FP8 версии, плюс апскейлеры для пространства и времени, а также готовые рабочие процессы для ComfyUI. Если требуется быстрая итерация и четкая анимация на основе одного изображения или короткой последовательности, LTX-Video заслуживает внимания.

5. CogVideoX-5B

CogVideoX-5B выступает в роли более детализированной версии по сравнению с базовой 2B-моделью, обученной в формате bfloat16 и рекомендуемой для запуска в том же формате. Она производит 6-секундные клипы с частотой 8 кадров в секунду при фиксированном разрешении 720x480 и работает с английскими промптами длиной до 226 токенов.

Документация модели описывает прогнозируемое потребление Video Random Access Memory (VRAM) для вывода на одном или нескольких GPU, стандартные времена выполнения (например, около 90 секунд для 50 шагов на одном H100), а также влияние оптимизаций Diffusers, таких как выгрузка на CPU и тайлинг/слайсинг VAE, на объем памяти и производительность.

Выбор модели для генерации видео

Вот несколько общих рекомендаций, которые помогут подобрать подходящую модель генерации видео в зависимости от ваших задач.

  • Для кинематографического стиля и разрешения 720p/24 на одной видеокарте 4090: Wan 2.2 (A14B для основных операций; гибридный TI2V 5B для эффективного 720p/24)
  • Для универсальной базовой T2V/I2V-модели большого масштаба с качественной динамикой и полным стеком открытого ПО: HunyuanVideo (13B, параллелизм xDiT, веса FP8, Diffusers/ComfyUI)
  • Для открытой, удобной для модификаций предварительной версии на уровне передового уровня с современной анимацией и четким планом исследований: Mochi 1 (10B AsymmDiT + AsymmVAE, Apache 2.0)
  • Для реального времени I2V и возможности редактирования с апскейлерами и рабочими процессами ComfyUI: LTX-Video (30 fps при 1216x704, варианты 13B/2B и FP8)
  • Для компактных 6-секундных T2V в 720x480 с надежной поддержкой Diffusers и квантизацией для малого VRAM: CogVideoX-5B