Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Новый бенчмарк DeepImageSearch проверяет ИИ на поиск фото в личных коллекциях по контексту из нескольких снимков. Текущие модели дают 10–14% точности, лучшие с инструментами — до 29%, проблема в планировании поиска. DISBench с 122 запросами и 109 тыс. фото доступен публично.
Команда Qwen из Alibaba выпустила Qwen-Image-2.0 — 7-миллиардную модель для генерации и редактирования изображений с почти идеальным текстом, включая древнюю каллиграфию. Она лидирует в тестах Arena, обходя специализированных конкурентов. Скоро ожидаются открытые веса, как с предыдущей версией.
DeepSeek OCR 2 использует новый энкодер DeepEncoder V2, который перестраивает визуальные токены по смыслу и снижает их число на 80%, превосходя Gemini 3 Pro в разборе документов. Модель лидирует на OmniDocBench v1.5 с 91,09% и открыта на GitHub. Это шаг к универсальной обработке разных типов данных.
Google Photos добавил функцию Me Meme для создания мемов с собственными фото с помощью ИИ Gemini. Сначала доступна в США, помогает экспериментировать с изображениями. Пользователи смогут выбирать шаблоны и генерировать забавные картинки.
ИИ-инструмент PANDA от Alibaba обнаруживает рак поджелудочной железы на неконтрастных КТ-сканах еще до симптомов и уже спас жизни пациентов. В испытаниях в Китае система проверила 180 тысяч снимков и нашла десятки случаев, включая ранние. Эксперты хвалят потенциал, но критикуют за множество ложных тревог.
Zara задействовала ИИ, чтобы виртуально менять одежду и фон на существующих фото моделей, избегая новых съёмок. Моделям платят как обычно, но другие специалисты остаются без дохода. H&M и Zalando тоже разрабатывают цифровых двойников на базе ИИ.
Разработчики Retro выпустили Splat — приложение, где ИИ превращает фото в детские раскраски. Выберите снимок, стиль вроде аниме или комикса, и получите страницу для печати или экрана. Сервис предлагает свои категории вроде животных и роботов, работает на iOS и Android с удобной подпиской.
Zara тестирует генеративный ИИ для создания новых фото моделей в одежде на основе существующих съёмок, чтобы ускорить производство контента без лишних сессий. Такой подход убирает трения из повторяющихся задач, интегрируясь в текущие процессы без радикальных перемен. Это пример, как ИИ становится рутиной в ритейле, накапливая практические изменения.
Дизайнер Кейт Бартон сотрудничает с Fiducia AI и IBM, чтобы представить коллекцию на NYFW с многоязычным ИИ-агентом для распознавания одежды и виртуальных примерок. Технологии служат порталом в мир коллекции, вызывая любопытство у гостей. Эксперты видят рост ИИ в моде, но подчёркивают важность человеческого творчества.
Открытые модели ИИ для редактирования изображений быстро развиваются и предлагают мощные инструменты для творцов. Мы разобрали пять топовых вариантов: от скоростных FLUX.2 до моделей с мышлением вроде Step1X. Их можно запускать локально или в облаке, сохраняя полный контроль.
Google DeepMind добавил в Gemini 3 Flash функцию Agentic Vision: модель теперь активно изучает изображения через Python-код, повышая точность на 5–10%. Стартапы уже используют это для анализа чертежей, а видео демонстрируют разметку и математику. Пока не все работает автоматически, но расширения на подходят.
Google Photos в США предлагает функцию «Me Meme», где ИИ превращает селфи в персонализированные мемы. Пользователи выбирают шаблон, добавляют фото себя, а модель генерирует результат. Пока запуск ограничен США, детали — на сайте поддержки.
Samsung готовит версию Google Photos для своих телевизоров к 2026 году. Старт с функцией Memories на эксклюзивных правах на полгода и ИИ-фичами вроде Nano Banana и Remix. Пользователям потребуется авторизация через Google-аккаунт.
Qwen обновил модель Qwen-Image-Edit-2511 для лучшего сохранения идентичности лиц при редактировании портретов и групповых фото. Улучшения затронули освещение, ракурсы, дизайн продуктов и геометрию, плюс интегрированы LoRA из сообщества. Модель открыта под Apache 2.0 с демо на Hugging Face.
Подразделение Qwen от Alibaba выпустило модель Qwen-Image-Layered, разбирающую изображения на прозрачные RGBA-слои для независимого редактирования элементов. Она позволяет менять фон, объекты, текст и многое другое, деля фото на 3 или 8 слоев с возможностью дальнейшего разбиения. Код открыт на GitHub, модели — на Hugging Face и ModelScope, есть демо и подробные материалы.
Dressfiy — удобное мобильное приложение на базе ИИ, превращающее фото и промпты в анимированные видео без навыков редактирования. Пользователи могут менять одежду на снимках одним касанием и применять крутые спецэффекты. Готовые ролики легко сохранять или делиться в соцсетях.