Израильская компания Lightricks выложила в открытый доступ модель LTX-2 с 19 миллиардами параметров. Она создаёт видео с синхронизированным звуком по текстовым описаниям и обходит конкурентов по скорости.
Как указано в техническом отчёте, модель производит до 20 секунд видео со стереозвуком из одного текстового запроса. В результат входит речь с точной синхронизацией губ, фоновые шумы, звуковые эффекты и музыка, подходящая под каждую сцену. Полная LTX-2 выдаёт 4K при 50 кадрах в секунду, уверяют разработчики.
Специалисты подчёркивают: подходы к совместной генерации видео и аудио сейчас имеют серьёзные недостатки. Большинство систем идут по шагам — сперва видео, потом звук, или наоборот. Раздельные цепочки не улавливают полное взаимосвязанное распределение модальностей. Синхронизация губ в основном зависит от аудио, но звуковая обстановка определяется тем, что видно. Только цельная модель учитывает такие связи в обе стороны.
Зачем асимметричная архитектура нужна для видео со звуком
LTX-2 построена на двухпоточной трансформерной схеме с общим объёмом в 19 миллиардов параметров. На видео уходит 14 миллиардов — гораздо больше, чем 5 миллиардов для аудио. Разработчики объясняют это разной насыщенностью данными в каждом потоке.
Каждый поток имеет свой вариационный автоэнкодер. Благодаря этому вводятся позиционные коды под модальность: трёхмерные вращающиеся вложения RoPE для пространственно-временной структуры видео и одномерные для чисто временной последовательности аудио. Слои двунаправленного кросс-аттеншена соединяют потоки, точно сопоставляя визуальные события — вроде удара предмета о землю — с нужными звуками.
Для разбора текста LTX-2 применяет Gemma3-12B в роли многоязычного энкодера. Вместо обращения только к последнему слою она использует все декодерные уровни, объединяя их данные. Плюс специальные "токены для размышлений" — лишние метки в последовательности, которые дают модели пространство для анализа сложных запросов перед стартом генерации.
Скорость делает LTX-2 лидером среди аналогов
По тестам LTX-2 лидирует по времени вывода. На Nvidia H100 для 121 кадра в 720p она тратит 1,22 секунды на шаг. Схожая Wan2.2-14B, которая делает только видео без звука, требует 22,30 секунды. Итог — LTX-2 в 18 раз шустрее, по данным Lightricks.
Длина видео в 20 секунд тоже рекорд: Veo 3 от Google даёт 12 секунд, Sora 2 от OpenAI — 16 секунд, а открытая модель Ovi от Character.AI — 10 секунд. Тесты на предпочтения людей показывают: LTX-2 заметно лучше открытых конкурентов вроде Ovi и не уступает закрытым Veo 3 с Sora 2.
Есть и слабые места. Качество речи меняется по языкам — для редких диалектов точность ниже. В сценах с несколькими говорящими модель иногда путает, кто что произносит. Ролики длиннее 20 секунд страдают от сдвигов во времени и потери синхронизации.
Открытый код LTX-2 против закрытых сервисов
Lightricks выбрала открытый релиз, чтобы покритиковать рынок. "Я просто не понимаю, как этого добиться через закрытые API", — говорит основатель компании Зев Фарбман в видеообъявлении о слабостях нынешних генераторов видео. Получается разрыв: демо впечатляют, но до профессионального контроля далеко.
Компания чётко выражает этическую позицию. "Искусственный интеллект усиливает человеческую креативность и ум. Меня беспокоит, если моя помощь будет в чужих руках", — добавляет Фарбман. Цель — запускать ИИ на своём оборудовании по своим правилам, решая этические вопросы вместе с сообществом авторов, а не отдавая их узкой группе с её интересами.
Помимо весов модели в релизе есть упрощённая версия, LoRA-адаптеры и гибкий фреймворк для обучения на нескольких GPU. Оптимизация под экосистему Nvidia RTX позволяет работать на потребительских картах вроде RTX 5090 и серверных системах. Всё доступно на GitHub и Hugging Face, демо — на платформе компании после бесплатной регистрации.