Подразделение Alibaba по ИИ Qwen представило модель, которая разбирает фото на отдельные редактируемые части. Qwen-Image-Layered превращает изображения в набор независимых слоев с прозрачным фоном в формате RGBA, чтобы менять каждый элемент, не трогая остальное.
Она легко справляется с простыми правками: масштабированием, перемещением и сменой цвета объектов. Пользователи заменяют фон, подставляют других людей, исправляют надписи, стирают, сдвигают или увеличивают детали. Фото делится на 3 или 8 слоев, и этот шаг повторяется — любой слой разбирают дальше по надобности. Создатели из Qwen считают подход связующим звеном между простыми картинками и удобными для редактирования структурами.
Команда выложила код на GitHub, модели лежат на Hugging Face и ModelScope. Больше информации — в записи блога и техническом отчете. Для пробных тестов есть демо на Hugging Face и ModelScope.