Международная группа ученых подготовила самый масштабный набор данных для проверки видео-рассуждений — он в тысячу раз объемнее прошлых вариантов. Выводы тестов подтверждают: лидеры вроде Sora 2 и Veo 3.1 сильно уступают людям в решении подобных задач.
Способность видео-моделей разбираться в головоломках, прогнозировать движение объектов или распределять их по заданным принципам до сих пор изучали фрагментарно. Причина проста — не было достаточно больших коллекций данных, а существующие бенчмарки ограничивались лишь примерами для оценки без материалов для обучения.
Более 50 специалистов из 32 организаций, среди которых UC Berkeley, Stanford, Harvard и Университет Оксфорда, решили это исправить. Их набор Very Big Video Reasoning (VBVR) содержит свыше двух миллионов изображений и около миллиона видеофрагментов, распределенных по 200 тщательно подобранным заданиям. Девять известных бенчмарков добавляют примерно 12 800 примеров. Впервые набор включает миллион образцов для тренировки моделей.
Задания построены по классификации, опирающейся на теории человеческого мышления — от способностей, описанных Аристотелем, до категорий разума у Канта. Ученые разделили их на пять направлений: абстракция, знания, восприятие, пространственность и трансформация. Для каждой категории разработали генератор заданий с параметрами, способный создавать тысячи вариаций. Каждое требует именно видеоанализа: решение уникально и невозможно вывести из одного статичного кадра.
Sora 2 достигает около половины человеческого результата
Результаты на VBVR-Bench разочаровывают. Люди набирают в среднем 0,974 балла. Лучшая закрытая модель OpenAI Sora 2 показывает 0,546. За ней Google DeepMind Veo 3.1 с 0,480, Runway Gen-4 Turbo — 0,403, а Kuaishou Kling 2.6 — 0,369. Открытые модели вроде Wan2.2, CogVideoX, HunyuanVideo и LTX-2 держатся в диапазоне 0,273–0,371.
В VBVR-Bench отказались от языковых моделей для оценки. Поскольку почти все задания имеют единственный верный ответ, автоматические метрики напрямую проверяют точность позиций, правильность путей и логическую последовательность. Ученые подтвердили надежность такого подхода, сравнив с оценками людей — корреляция оказалась очень высокой.
Дообученная открытая модель обошла все закрытые системы
Самый неожиданный итог — от VBVR-Wan2.2, дообученной версии Wan2.2. Ее общий балл вырос до 0,685 — это на 84,6% лучше базовой модели, и она превзошла все коммерческие аналоги.
Однако анализ масштабирования усложняет картину. На знакомых типах заданий производительность поднимается до 0,771 при примерно 400 тысячах примеров обучения, а потом застопоривается. На совершенно новых типах максимум — 0,610, что на 15 процентных пунктов ниже пика. Авторы видят здесь базовый предел нынешних архитектур видео-генерации: дополнительные данные сами по себе проблему не решат.
Без точного следования инструкциям рассуждения невозможны
Качественный разбор VBVR-Wan2.2 против Sora 2 выявил суть проблемы: если модель во время генерации меняет сцену — фон, расположение или свойства объектов, — то промежуточные кадры теряют смысл, а вся логика рушится.
Например, в задаче на удаление Sora 2 после стирания цели переставляет лишние элементы, а VBVR-Wan2.2 делает ровно то, что просят. При повороте объектов Sora 2 путает цель с зоной манипуляции. VBVR-Wan2.2 даже освоила неожиданные умения за пределами обучения, вроде стратегий для симметричных задач. Впрочем, в длинных последовательностях появляются мерцание и дубликаты объектов.
Когнитивные навыки развиваются неравномерно
Анализ корреляций между моделями показал закономерности. Успех в задачах на знания часто сочетается с сильными результатами в пространственных — это перекликается с данными нейронауки о гиппокампе, отвечающем за навигацию и концептуальное усвоение.
Неожиданно обратная связь: хорошие знания мешают восприятию. Абстракция не коррелирует положительно ни с чем, но модели, сильные в ней, обычно слабее в трансформациях и пространстве.
Полный набор данных, инструменты бенчмарка и модели доступны публично на video-reason.com. Ученые подчеркивают: чтобы преодолеть обнаруженный барьер, потребуются улучшения архитектуры, такие как отслеживание состояний и механизмы самокоррекции.
Еще в сентябре 2025 года исследование с участием Google DeepMind отметило неожиданные zero-shot возможности модели Veo 3: решение лабиринтов, распознавание симметрий, моделирование физики без специальной подготовки. Авторы увидели в этом намек, что видео-модели могут стать универсальной основой для машинного зрения, подобно языковым моделям в обработке текста. Некоторые эксперты, включая CEO DeepMind Демиса Хассабиса, полагают, что они лягут в базу мировых моделей.