Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

StoryMem: память для стабильных ИИ-видео

StoryMem от ByteDance решает проблему нестабильности персонажей в ИИ-видео, храня ключевые кадры в памяти для всех сцен. Система показывает лучшие результаты в тестах по последовательности и эстетике. Модель дообучена с минимальными усилиями и доступна открыто.

3 января 2026 г.
4 мин
20

Разработчики из ByteDance и Нанъянского технологического университета представили систему, обеспечивающую стабильность персонажей и окружения в ИИ-генерируемых видео на протяжении нескольких сцен. Метод сохраняет ключевые кадры из уже созданных фрагментов и применяет их как ориентиры для последующих.

Современные ИИ-модели для видео, такие как Sora, Kling и Veo, отлично справляются с короткими клипами продолжительностью несколько секунд. Однако при объединении сцен в единую историю проявляются серьезные недостатки: внешность персонажей меняется, окружение выглядит по-разному, а мелкие детали искажаются.

По словам авторов, существующие подходы сталкивались с выбором: обработка всех сцен в единой модели резко повышала вычислительную нагрузку, а генерация по отдельности приводила к потере связи между частями.

Система StoryMem предлагает альтернативу. Она накапливает отобранные ключевые кадры в хранилище памяти во время работы и использует их при создании каждой новой сцены. Благодаря этому модель сохраняет информацию о предыдущем облике героев и фонов.

Умный отбор кадров экономит ресурсы памяти

Хранить каждый кадр неэффективно, поэтому алгоритм анализирует содержимое и выбирает визуально важные фрагменты, отличающиеся по смыслу. Дополнительный фильтр отсеивает размытые или шумные изображения по техническим параметрам.

Хранилище памяти сочетает два механизма: ранние ключевые кадры фиксируются как долгосрочные референсы, а свежие циркулируют в сдвигающемся окне. Такой баланс ограничивает объем данных, не жертвуя начальными деталями сюжета.

При работе с новой сценой сохраненные изображения подаются в модель вместе с генерируемым видео. Специальное кодирование позиций RoPE (Rotary Position Embedding) помогает модели воспринимать их как предшествующие события. Исследователи присваивают хранимым кадрам отрицательные временные индексы, чтобы обозначить их как прошлое.

Гибкий отбор ключевых кадров с удалением повторов

Одно из преимуществ — упрощенное обучение. Конкурентные методы требуют длинных непрерывных видео высокого качества, которых мало. StoryMem использует LoRA-адаптацию (Low-Rank Adaptation) открытой модели Wan2.2-I2V от Alibaba.

Обучение прошло на 400 000 коротких клипов по пять секунд каждый. Клипы группировали по визуальному сходству, чтобы модель училась создавать логичные продолжения. Дополнение добавило всего около 0,7 миллиарда параметров к базовым 14 миллиардам.

Тесты подтверждают рост стабильности

Авторы создали собственный бенчмарк ST-Bench с 30 историями и 300 подробными описаниями сцен — от реалистичных до сказочных.

StoryMem заметно превосходит другие решения по стабильности между сценами: на 28,7% лучше базовой модели и на 9,4% эффективнее HoloCine, считавшейся лидером. Кроме того, она лидирует по эстетическому качеству среди оптимизированных для последовательности методов.

Субъективная оценка пользователями подтвердила цифры: видео StoryMem чаще выбирали как лучшие по большинству критериев.

МетодЭстетическое качество↑Соответствие промту↑Последовательность между сценами↑
ГлобальнаяДля одной сцены
Wan2.2-T2V0.64520.21740.2452
StoryDiffusion + Wan2.2-I2V0.60850.22880.2349
IC-LoRA + Wan2.2-I2V0.57040.21310.2181
HoloCine0.56530.21990.2125
StoryMem0.61330.22890.2313

Фреймворк открывает дополнительные возможности. Пользователи загружают свои фото людей или мест в хранилище — система создаст историю с ними на всем протяжении. Еще один плюс — плавные переходы: финальный кадр сцены становится стартовым для следующей, без резких скачков.

Сложные сюжеты требуют доработки

Есть ограничения. Система хуже справляется со сценами, где много персонажей: хранилище не привязывает кадры к конкретным героям, поэтому при появлении новых модель иногда путает черты.

Чтобы обойти, советуют детально описывать героев в каждом промте. Переходы между сценами с разной скоростью движения могут выглядеть неестественно, поскольку связь кадров не передает динамику.

Страница проекта с примерами уже работает. Бенчмарк ST-Bench опубликуют для исследований. Веса модели доступны на Hugging Face.