ByteDance открыла доступ к Seedance 2.0 для ограниченного числа пользователей. Предыдущая версия уже входила в число лидеров среди генераторов видео на базе ИИ. Теперь модель шагнула еще дальше.
Эта мультимодальная система для создания видео обрабатывает сразу до четырех видов входных данных: изображения, видео, аудио и текст. Пользователи загружают максимум девять изображений, три видео и три аудиофайла — всего до двенадцати файлов. Получающиеся ролики длятся от 4 до 15 секунд и сразу оснащены звуковыми эффектами или музыкой.
Примеры видео предоставлены самой ByteDance и, скорее всего, отобраны из большего набора сгенерированных фрагментов. Пока неизвестно, насколько стабильно модель достигает такого уровня качества в повседневном использовании, сколько стоит генерация и как долго она длится. То, что показывают, — это идеальный сценарий. Даже при таких возможностях на бумаге внедрение в профессиональные процессы сталкивается с проблемами вроде непостоянства результатов. Тем не менее качество демонстрируемых материалов поражает.
Промт: Камера следует за мужчиной в черной одежде, который быстро убегает. За ним гонится толпа людей. Камера переключается на боковой ракурс погони. Фигура в панике опрокидывает придорожную фруктовую лавку, поднимается и продолжает бежать. В фоне слышны возбужденные крики толпы.
Промт: Девушка грациозно развешивает белье. Закончив, она берет следующую вещь из ведра и энергично ее встряхивает.
ByteDance подчеркивает, что ключевой новинкой стала функция работы с референсами: модель заимствует движения камеры, перемещения объектов и спецэффекты из загруженных видео, заменяет персонажей и плавно продлевает существующие клипы. Поддерживаются и задачи видеоредактирования, такие как замена или добавление героев.
Пользователи вводят простые текстовые инструкции вроде: «Используй @image1 как первое изображение сцены. Вид от первого лица. Движения камеры возьми из @Video1. Верхняя сцена основана на @Frame2, левая — на @Frame3, правая — на @Frame4».
Пользователь записывает движение камеры...
...которое модель ИИ переносит в создаваемое видео вместе с другими элементами.
Из-за требований к безопасности сейчас запрещено загружать материалы с реалистичными лицами людей. Seedance 2.0 доступна только в бета-версии на официальном сайте Jimeng по адресу jimeng.jianying.com.
Промт: Фигура на картинке выглядит виноватой, глаза бегают влево-вправо, затем она высовывается за край рамки. Быстро протягивает руку за кадр, хватает коку, делает глоток и показывает довольное выражение лица. В этот момент слышны шаги. Фигура поспешно возвращает коку на место. Появляется ковбой в западном стиле, берет коку из стакана и уходит. Камера приближается, фон темнеет, сверху падает луч света на банку коки. Внизу появляется стилизованная субтитра с голосом за кадром: «Yikou Cola — попробуй обязательно!».
Запуск произошел через несколько дней после анонса модели Kling 3.0 от Kuaishou, которая тоже работает с мультимодальными входами и выходами. Гонка в сфере ИИ-видео набирает обороты и на фондовом рынке Китая: по данным South China Morning Post, выход мощных моделей видео подтолкнул акции китайских компаний в медиа и ИИ к росту до 20 процентов.