Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Lightricks открыл LTX-2 — видео с ИИ быстрее Sora

Израильская Lightricks открыла код модели LTX-2 с 19 миллиардами параметров для генерации видео со звуком по тексту. Она быстрее аналогов вроде Sora и Veo, выдаёт до 20 секунд в 4K и использует асимметричную архитектуру. Релиз включает код, адаптеры и демо, подчёркивая важность открытости против закрытых API.

11 января 2026 г.
4 мин
65

Израильская компания Lightricks выложила в открытый доступ модель LTX-2 с 19 миллиардами параметров. Она создаёт видео с синхронизированным звуком по текстовым описаниям и обходит конкурентов по скорости.

Как указано в техническом отчёте, модель производит до 20 секунд видео со стереозвуком из одного текстового запроса. В результат входит речь с точной синхронизацией губ, фоновые шумы, звуковые эффекты и музыка, подходящая под каждую сцену. Полная LTX-2 выдаёт 4K при 50 кадрах в секунду, уверяют разработчики.

Специалисты подчёркивают: подходы к совместной генерации видео и аудио сейчас имеют серьёзные недостатки. Большинство систем идут по шагам — сперва видео, потом звук, или наоборот. Раздельные цепочки не улавливают полное взаимосвязанное распределение модальностей. Синхронизация губ в основном зависит от аудио, но звуковая обстановка определяется тем, что видно. Только цельная модель учитывает такие связи в обе стороны.

Зачем асимметричная архитектура нужна для видео со звуком

LTX-2 построена на двухпоточной трансформерной схеме с общим объёмом в 19 миллиардов параметров. На видео уходит 14 миллиардов — гораздо больше, чем 5 миллиардов для аудио. Разработчики объясняют это разной насыщенностью данными в каждом потоке.

Каждый поток имеет свой вариационный автоэнкодер. Благодаря этому вводятся позиционные коды под модальность: трёхмерные вращающиеся вложения RoPE для пространственно-временной структуры видео и одномерные для чисто временной последовательности аудио. Слои двунаправленного кросс-аттеншена соединяют потоки, точно сопоставляя визуальные события — вроде удара предмета о землю — с нужными звуками.

Для разбора текста LTX-2 применяет Gemma3-12B в роли многоязычного энкодера. Вместо обращения только к последнему слою она использует все декодерные уровни, объединяя их данные. Плюс специальные "токены для размышлений" — лишние метки в последовательности, которые дают модели пространство для анализа сложных запросов перед стартом генерации.

Скорость делает LTX-2 лидером среди аналогов

По тестам LTX-2 лидирует по времени вывода. На Nvidia H100 для 121 кадра в 720p она тратит 1,22 секунды на шаг. Схожая Wan2.2-14B, которая делает только видео без звука, требует 22,30 секунды. Итог — LTX-2 в 18 раз шустрее, по данным Lightricks.

Длина видео в 20 секунд тоже рекорд: Veo 3 от Google даёт 12 секунд, Sora 2 от OpenAI — 16 секунд, а открытая модель Ovi от Character.AI — 10 секунд. Тесты на предпочтения людей показывают: LTX-2 заметно лучше открытых конкурентов вроде Ovi и не уступает закрытым Veo 3 с Sora 2.

Есть и слабые места. Качество речи меняется по языкам — для редких диалектов точность ниже. В сценах с несколькими говорящими модель иногда путает, кто что произносит. Ролики длиннее 20 секунд страдают от сдвигов во времени и потери синхронизации.

Открытый код LTX-2 против закрытых сервисов

Lightricks выбрала открытый релиз, чтобы покритиковать рынок. "Я просто не понимаю, как этого добиться через закрытые API", — говорит основатель компании Зев Фарбман в видеообъявлении о слабостях нынешних генераторов видео. Получается разрыв: демо впечатляют, но до профессионального контроля далеко.

Компания чётко выражает этическую позицию. "Искусственный интеллект усиливает человеческую креативность и ум. Меня беспокоит, если моя помощь будет в чужих руках", — добавляет Фарбман. Цель — запускать ИИ на своём оборудовании по своим правилам, решая этические вопросы вместе с сообществом авторов, а не отдавая их узкой группе с её интересами.

Помимо весов модели в релизе есть упрощённая версия, LoRA-адаптеры и гибкий фреймворк для обучения на нескольких GPU. Оптимизация под экосистему Nvidia RTX позволяет работать на потребительских картах вроде RTX 5090 и серверных системах. Всё доступно на GitHub и Hugging Face, демо — на платформе компании после бесплатной регистрации.