Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Qwen-Image-2.0 точно рисует каллиграфию и слайды

Команда Qwen из Alibaba выпустила Qwen-Image-2.0 — 7-миллиардную модель для генерации и редактирования изображений с почти идеальным текстом, включая древнюю каллиграфию. Она лидирует в тестах Arena, обходя специализированных конкурентов. Скоро ожидаются открытые веса, как с предыдущей версией.

11 февраля 2026 г.
3 мин
20

Команда Qwen из Alibaba представила Qwen-Image-2.0 — компактную модель для работы с изображениями, которая генерирует и редактирует их. Главное преимущество — почти безупречное воспроизведение текста, в том числе сложной китайской каллиграфии.

Команда Qwen из Alibaba выпустила Qwen-Image-2.0. Модель содержит 7 миллиардов параметров и изначально поддерживает разрешение 2K (2048 x 2048). Она создает изображения по текстовым описаниям и изменяет готовые — раньше такие функции требовали двух разных моделей. Предыдущая версия весила 20 миллиардов параметров, новая примерно втрое компактнее. Разработчики объединили раньше раздельные направления работы, потратив на это месяцы.

В слепых тестах на внутренней платформе Arena от Alibaba модель обошла соперников в генерации по тексту и редактировании изображений, хотя это единая система против специализированных. Она на третьем месте, за GPT-Image-1.5 от OpenAI и Nano Banana Pro от Google. В сравнении по редактированию Qwen-Image-2.0 на втором, между Nano Banana Pro и Seedream 4.5 от ByteDance.

Почти безупречный текст на изображениях

Самая сильная сторона Qwen-Image-2.0 — точное размещение текста в созданных картинках. Разработчики выделяют пять ключевых качеств: точность, сложность, эстетику, реализм и следование запросу.

Модель обрабатывает запросы длиной до 1000 токенов. Этого хватает, чтобы за один раз сделать инфографику, слайды презентаций, постеры или даже комиксы на несколько страниц. В одном примере она создала слайд PowerPoint с временной шкалой: весь текст без ошибок, плюс встроенные картинки внутри слайда — как композиция "картинка в картинке".

Демонстрации с каллиграфией особенно впечатляют. Qwen-Image-2.0 работает с разными стилями китайского письма, включая "Тонкую золотую письменность" императора Хуэйцзуна династии Сун и стандартный каишэ. В примере модель воспроизвела почти весь текст "Предисловия к стихам, сочиненным в павильоне орхидей" в стандартном стиле, с всего несколькими неверными иероглифами.

Модель правильно размещает текст на любых поверхностях — стеклянных досках, ткани, обложках журналов, учитывая освещение, блики и перспективу. На примере постера фильма фотореалистичные сцены сочетаются с насыщенной типографикой в единой композиции.

Кроме текста, в чисто визуальных задачах заметен прогресс. В демонстрации лесной сцены модель различает свыше 23 оттенков зеленого с уникальными текстурами: от восковых листьев до бархатистого мха.

Единая архитектура для генерации и редактирования дает синергию: успехи в создании картинок улучшают правки. Модель накладывает стихи на фото, генерирует сетку из девяти поз по одному портрету или объединяет персонажей с двух снимков в естественную групповую фотографию. Поддерживается и кросс-размерное редактирование, например, вставка мультяшных героев в реальные городские пейзажи с верной перспективой.

Открытые веса, скорее всего, выйдут скоро

Qwen-Image-2.0 доступна только через API на Alibaba Cloud в закрытом бета-тесте по приглашениям и как бесплатный демо на Qwen Chat. Веса модели пока закрыты.

Тем не менее, сообщество LocalLLaMA на Reddit активно обсуждает новинку. Размер в 7B параметров идеален для запуска на обычном железе. Закрытость весов никого не удивила. С первой Qwen-Image веса под Apache 2.0 опубликовали через месяц после релиза. Пользователи ждут похожего сценария. Техническая статья об архитектуре еще не вышла.

Qwen-Image-2.0 вписывается в тенденцию китайских моделей изображений, где акцент на точном рендере текста. В декабре Meituan показал 6-миллиардный LongCat-Image, а в январе Zhipu AI представил 16-миллиардный GLM-Image под лицензией MIT.