Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте
Google добавил в Maps функцию, где Gemini генерирует подписи к фото и видео для упрощения публикаций. Появились рекомендации недавних медиафайлов и улучшенное отслеживание очков Local Guides. Обновления помогают сообществу из 500 млн пользователей держать сервис актуальным.
Picsart открыла маркетплейс ИИ-агентов, где креаторы нанимают помощников для задач вроде редактирования фото и ресайза контента. Доступны Flair для Shopify, Resize Pro, Remix и Swap; новые агенты добавляют еженедельно. Общение через WhatsApp и Telegram, с контролем автономии для безопасности.
Luma AI представила Uni-1 — модель на автотрегрессивном трансформере, объединяющую генерацию и анализ изображений. Она лидирует в RISEBench по логическим задачам, обходя Nano Banana 2 и GPT Image 1.5, и предлагает функции вроде последовательного редактирования и стилизации в 76+ стилях. Доступ появится в Luma Agents и API.
Новый бенчмарк DeepImageSearch проверяет ИИ на поиск фото в личных коллекциях по контексту из нескольких снимков. Текущие модели дают 10–14% точности, лучшие с инструментами — до 29%, проблема в планировании поиска. DISBench с 122 запросами и 109 тыс. фото доступен публично.
Команда Qwen из Alibaba выпустила Qwen-Image-2.0 — 7-миллиардную модель для генерации и редактирования изображений с почти идеальным текстом, включая древнюю каллиграфию. Она лидирует в тестах Arena, обходя специализированных конкурентов. Скоро ожидаются открытые веса, как с предыдущей версией.
DeepSeek OCR 2 использует новый энкодер DeepEncoder V2, который перестраивает визуальные токены по смыслу и снижает их число на 80%, превосходя Gemini 3 Pro в разборе документов. Модель лидирует на OmniDocBench v1.5 с 91,09% и открыта на GitHub. Это шаг к универсальной обработке разных типов данных.
Google Photos добавил функцию Me Meme для создания мемов с собственными фото с помощью ИИ Gemini. Сначала доступна в США, помогает экспериментировать с изображениями. Пользователи смогут выбирать шаблоны и генерировать забавные картинки.
ИИ-инструмент PANDA от Alibaba обнаруживает рак поджелудочной железы на неконтрастных КТ-сканах еще до симптомов и уже спас жизни пациентов. В испытаниях в Китае система проверила 180 тысяч снимков и нашла десятки случаев, включая ранние. Эксперты хвалят потенциал, но критикуют за множество ложных тревог.
Midjourney выпустила альфа-версию V8 с пятикратным ускорением генерации, улучшенной детализацией и рендерингом текста в кавычках. Модель лучше работает с персонализацией, но на сложных промптах уступает гибридным конкурентам вроде Nano Banana и Flux. Премиум-опции вроде --hd и --q 4 подорожали в четыре раза, без режима Relax.
Adobe запустила бета-версию ИИ-ассистента в Photoshop для веб и мобильных устройств, с функциями удаления объектов, правки света и фона по запросам. Появилась опция AI markup для меток и трансформаций, платные пользователи до 9 апреля работают без лимитов. Firefly обновили Generative Fill, generative remove, expand, upscale и удалением фона в клик, плюс поддержка 25+ сторонних моделей.
Elliott Investment Management увеличил долю в Pinterest до 1 миллиарда долларов, поддерживая рост на базе ИИ. Компания планирует выкуп акций на 3,5 миллиарда и отметила рекорды по доходам и поисковым запросам. Инвестиция вышла на фоне падения котировок и сокращений, но сигнализирует веру в стратегию с визуальным поиском и персонализацией.
Дизайнер Кейт Бартон сотрудничает с Fiducia AI и IBM, чтобы представить коллекцию на NYFW с многоязычным ИИ-агентом для распознавания одежды и виртуальных примерок. Технологии служат порталом в мир коллекции, вызывая любопытство у гостей. Эксперты видят рост ИИ в моде, но подчёркивают важность человеческого творчества.
Открытые модели ИИ для редактирования изображений быстро развиваются и предлагают мощные инструменты для творцов. Мы разобрали пять топовых вариантов: от скоростных FLUX.2 до моделей с мышлением вроде Step1X. Их можно запускать локально или в облаке, сохраняя полный контроль.
Google DeepMind добавил в Gemini 3 Flash функцию Agentic Vision: модель теперь активно изучает изображения через Python-код, повышая точность на 5–10%. Стартапы уже используют это для анализа чертежей, а видео демонстрируют разметку и математику. Пока не все работает автоматически, но расширения на подходят.
Google Photos в США предлагает функцию «Me Meme», где ИИ превращает селфи в персонализированные мемы. Пользователи выбирают шаблон, добавляют фото себя, а модель генерирует результат. Пока запуск ограничен США, детали — на сайте поддержки.
Samsung готовит версию Google Photos для своих телевизоров к 2026 году. Старт с функцией Memories на эксклюзивных правах на полгода и ИИ-фичами вроде Nano Banana и Remix. Пользователям потребуется авторизация через Google-аккаунт.