Helios: ИИ-модель создаёт минуту видео на 19.5 FPS

Модель Helios первой среди 14-миллиардных видео-генераторов достигла 19,5 FPS на одной GPU при создании роликов длиной минуту. Код и веса модели открыты для всех.

Обычные модели генерации видео выдают клипы по 5–10 секунд, а на их обработку тратят минуты. Для реального времени с длинными последовательностями прибегают к моделям по 1,3 млрд параметров, но качество оставляет желать лучшего. Крупные варианты вроде Krea-RealTime-14B ограничиваются 6,7 FPS на H100 и мучаются от выраженных артефактов дрейфа.

Helios развивает Wan-2.1-14B, тратящую примерно 50 минут на пять секунд видео на A100. Процесс обучения разделен на три фазы: Helios-Base фокусируется на архитектуре и подавлении дрейфа, Helios-Mid вводит сжатие токенов при 1,05 FPS, а Helios-Distilled доводит скорость до максимума, сокращая вычисления до трех шагов.

Гистограмма сравнения скорости в FPS моделей генерации видео на одной H100 GPU. Helios-Distilled с 14 млрд параметров выходит на 19,53 FPS, почти догоняя 1,3B-модели вроде Reward Forcing с 22,13 FPS. Другие 14B-модели типа Wan 2.1 или LongCat-Video достигают лишь 0,33 FPS. — Helios-Distilled на 19,53 FPS на одной H100 сравнима по скорости с моделями 1,3B, в отличие от других 14B-вариантов, которые падают ниже 1 FPS.

В тестах разработчиков дистиллированная Helios набирает 19,53 FPS, обгоняя даже некоторые меньшие дистиллированные аналоги. SANA Video Long с 2 млрд параметров, в семь раз компактнее, выдает только 13,24 FPS.

По качеству видео Helios получает 6,00 баллов за короткие ролики из 81 кадра. Авторы утверждают, что она превосходит все дистиллированные модели и не уступает базовым на своем размере. Для длинных видео показатель 6,94 — чуть лучше лидера Reward Forcing с 6,88. Результаты подтверждает опрос 200 пользователей.

Две гистограммы качества моделей видео-генерации. Слева — длинные видео, Helios-Base на 6,57 лидирует, Helios-Distilled на 6,34 опережает LongLive с 6,22. Справа — короткие видео, HV Video 1.5 на 6,90 впереди, Helios-Distilled с 6,00 обходит дистиллированные модели. — Helios-Base занимает первое место по качеству длинных видео и держится наравне с крупными базовыми моделями в коротких последовательностях.

Длинные синтезированные видео обычно теряют четкость, стабильность цветов и связность сюжета со временем. Раньше с этим боролись сложными методами вроде self-forcing, когда модель во время обучения использует свой вывод как вход, чтобы стереть разницу между обучением и генерацией. Helios обходитесь без таких ухищрений.

Четыре пары изображений типичных артефактов дрейфа в видео. Сдвиг позиции искажает пространственную структуру, сдвиг цвета толкает оттенки в неестественные пределы. Сдвиг восстановления проявляется шумом, растворяющим картинку в зерно, или размытием с постепенной потерей деталей. Слева оригинал, справа деградация. — Три распространенных вида дрейфа в длинных видео: сдвиг позиции, сдвиг цвета, артефакты восстановления в виде шума или размытия.

Разработчики выявили три ключевых паттерна дрейфа и ввели простые корректировки. Кодирование относительных позиций не дает модели сталкиваться с неизвестными индексами в длинных последовательностях, избегая повторяющихся движений. Якорь первого кадра постоянно держит начальное изображение в памяти как ориентир, блокируя сдвиги цвета. Симуляция целевых возмущений на обучении повышает устойчивость к собственным ошибкам, не давая им нарастать.

Единая модель для текста, изображений и видео

Helios применяет универсальную схему, охватывающую text-to-video, image-to-video и video-to-video в одном каркасе. Переключение между задачами происходит само по содержимому предыдущего контекста.

Пустой контекст запускает генерацию из текста. Если есть только последний кадр, модель анимирует изображение. При наличии нескольких кадров продолжается существующее видео. Промт можно менять на лету; плавный кроссфейд между старым и новым предотвращает резкие скачки в картинке.

Схема архитектуры Helios. Слева — иерархическая память с долгосрочным, среднесрочным и краткосрочным сжатием истории. В центре — контроль представлений, переключающий text-to-video, image-to-video, video-to-video. Справа — блоки DiT с Guidance Self Attention и Guidance Cross Attention. — Архитектура Helios сжимает предысторию видео на трех временных уровнях и сама определяет тип входа: текст, изображение или видео.

Обучение прошло в три этапа на 800 тысячах коротких клипов по менее 10 секунд каждый. Максимальное разрешение — 384 x 640 пикселей, мерцание заметно на стыках сегментов. Поскольку бенчмарков для реального времени с длинными видео нет, создали свой набор HeliosBench из 240 промтов.

Жесткое сжатие ради снижения нагрузки

Helios достигает цели по скорости без типичных ускорений вроде KV-кэша, разреженного внимания или квантования. Вместо этого модель радикально сжимает входные данные на двух уровнях.

Иерархическая структура памяти делит историю видео на три временных горизонта. Свежие кадры сжимаются слабо, старые — сильно. Это уменьшает токены для обработки в восемь раз.

Многоэтапный семплинг сокращает токены для текущего сегмента в 2,29 раза. Начальные шаги идут в низком разрешении, финальные добавляют детали. В сумме нагрузка падает до уровня генерации одного изображения.

Три графика сравнения наивного подхода и Helios при росте длины контекста. Слева — токены: наивный превышает 17 тысяч, Helios ниже 2500. В центре — память GPU, наивный выходит за лимит на длине 6. Справа — время на шаг: наивный до 20 секунд, Helios ниже 5. — При увеличении контекста наивный метод линейно растит токены, память и время инференса, выходя за пределы на длине 6, тогда как Helios остается почти постоянным.

Специальная дистилляция урезает шаги вычислений на сегмент с 50 до 3. В отличие от предшественников, Helios использует только реальные видео как контекст и генерирует один сегмент за итерацию. Адверсариальная цель в духе GAN поднимает качество за пределы учителя.

Сжатие токенов позволяет обучать первые два этапа на одной GPU. Третий требует четырех моделей параллельно, но они укладываются в 80 ГБ памяти за счет оптимизаций. Собственные ядра для операций ускоряют тренинг и инференс на 14% по сравнению со стандартными.

Открытые веса Helios лежат на GitHub и Hugging Face, где также есть демо вживую. Примеры видео — на странице проекта. Проект предназначен только для исследований, без планов в продукты Bytedance.

Bytedance недавно отметилась Seedance 2.0 — мультимодальной моделью для видео из изображений, видео, аудио и текста. Seedance требует больше ресурсов, ограничивается 15 секундами, но дает высочайшее качество, вызвавшее тревогу в Голливуде из-за риска массовых нарушений авторских прав.

Helios от Bytedance: минутные ИИ-видео почти в реальном времени

Единая модель для текста, изображений и видео

Жесткое сжатие ради снижения нагрузки

Горячее

Anthropic объяснила быстрый расход лимитов Claude Code

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Топ-5 CLI-инструментов для агентного кодирования

Топ-5 API-провайдеров открытых ИИ-моделей

Open Notebook: альтернатива NotebookLM

Сейчас в тренде