Исследования в области преобразования видео в аудио применяют пиксели видео и текстовые подсказки для создания насыщенных саундтреков.
Модели генерации видео развиваются с поразительной скоростью, однако многие современные системы способны производить только немой контент. Один из ключевых этапов в оживлении синтезированных фильмов заключается в разработке звукового сопровождения для таких беззвучных роликов.
В настоящее время мы представляем достижения в технологии преобразования видео в аудио (V2A), которая позволяет реализовать синхронизированную генерацию аудиовизуального контента. V2A объединяет пиксели видео с подсказками на естественном языке, чтобы формировать богатые звуковые ландшафты, соответствующие происходящему на экране.
Эта технология V2A совместима с моделями генерации видео, такими как Veo, для производства сцен с драматическим саундтреком, правдоподобными звуковыми эффектами или диалогами, гармонирующими с персонажами и общим тоном видео.
Кроме того, она способна создавать саундтреки для разнообразных традиционных материалов, включая архивные записи, немые фильмы и другие форматы, что расширяет возможности для творчества.
Расширенный контроль над творчеством
Особо стоит отметить, что V2A может производить неограниченное количество саундтреков для любого входного видео. При необходимости можно задать 'положительную подсказку' для направления генерации к желаемым звукам или 'отрицательную подсказку' для исключения нежелательных элементов.
Такая гибкость предоставляет пользователям больший контроль над аудиовыходом V2A, позволяя быстро тестировать различные варианты звучания и отбирать наиболее подходящий.
Принцип работы
Мы тестировали автрегрессивные и диффузионные методы, чтобы выявить наиболее масштабируемую архитектуру ИИ, и диффузионный подход к генерации аудио показал наилучшие результаты в плане реалистичности и убедительности для синхронизации видео и аудио данных.
Система V2A начинается с кодирования входного видео в сжатое представление. Затем диффузионная модель поэтапно уточняет аудио, начиная с случайного шума. Этот процесс направляется визуальным входом и подсказками на естественном языке, чтобы создать синхронизированное, реалистичное аудио, точно соответствующее подсказке. В заключение аудиовыход декодируется, преобразуется в аудиоволну и интегрируется с видеоданными.
Схема системы V2A, которая принимает пиксели видео и подсказку для аудио, чтобы сгенерировать аудиоволну, синхронизированную с видео. Сначала V2A кодирует вход видео и подсказки аудио, затем пропускает их через диффузионную модель итеративно. Далее формируется сжатое аудио, которое декодируется в аудиоволну.
Для повышения качества аудио и добавления возможности направлять модель на конкретные звуки мы включили дополнительные данные в процесс обучения, такие как аннотации, созданные ИИ, с детальными описаниями звуков и транскриптами диалогов.
Обучаясь на видео, аудио и этих дополнительных аннотациях, технология учится связывать определенные аудиособытия с различными визуальными сценами, реагируя на информацию из аннотаций или транскриптов.
Продолжающиеся исследования
Наше исследование отличается от существующих решений по преобразованию видео в аудио тем, что оно работает с сырыми пикселями, а добавление текстовой подсказки является опциональным.
Кроме того, система не требует ручной синхронизации генерируемого звука с видео, что подразумевает утомительное корректирование элементов звучания, визуалов и временных меток.
Подсказка для аудио: Музыка, Транскрипт: «эта индейка выглядит потрясающе, я так голоден»
Тем не менее, остаются ограничения, над которыми мы работаем, и исследования продолжаются.
Поскольку качество аудиовыхода зависит от качества входного видео, артефакты или искажения в видео, выходящие за рамки распределения обучения модели, могут существенно снизить качество аудио.
Мы также совершенствуем синхронизацию губ для видео с речью. V2A старается генерировать речь из входных транскриптов и синхронизировать ее с движениями губ персонажей. Однако связанная модель генерации видео может не учитывать транскрипты. Это приводит к несоответствию, часто вызывая неестественную синхронизацию губ, поскольку видео-модель не создает движения рта, соответствующие транскрипту.
Наша приверженность безопасности и прозрачности
Мы стремимся разрабатывать и внедрять технологии ИИ ответственно. Чтобы обеспечить положительное влияние V2A на творческое сообщество, мы собираем разнообразные мнения и идеи от ведущих создателей и кинематографистов, используя этот ценный отклик для направления наших текущих исследований и разработок.
Мы интегрировали наш набор инструментов SynthID в исследования V2A для водяного знака всего генерируемого ИИ-контента, что помогает защитить от потенциального злоупотребления этой технологией.
Прежде чем предоставить доступ к V2A широкой публике, технология пройдет строгие оценки безопасности и тестирование. Предварительные результаты указывают, что это станет перспективным методом для оживления синтезированных фильмов.
Примечание: Все примеры созданы с помощью технологии V2A в сочетании сVeo, нашей наиболее продвинутой модели генерации видео.