Agentic Vision в Gemini 3 Flash: активный анализ изображений

Google DeepMind внедряет в модель Gemini 3 Flash функцию "Agentic Vision". Теперь она не просто смотрит на картинки, а может их детально изучать — хотя некоторые возможности пока требуют подсказок.

Обычные ИИ-модели сканируют изображения за один раз. Пропустили мелочь — остаётся только предполагать. С Agentic Vision Google DeepMind меняет это: модель шаг за шагом увеличивает масштаб, обрезает фрагменты и работает с изображениями, создавая и запуская Python-код.

Процесс идёт по циклу размышление-действие-наблюдение. Модель сначала разбирает запрос и картинку, намечает план. Потом пишет и выполняет Python-код — например, для обрезки, поворота или разметки изображений. Результат попадает в контекстное окно, и модель его проверяет перед финальным ответом. Google сообщает, что такой подход повышает качество на 5–10% по различным визуальным тестам.

Идея не совсем свежая: OpenAI уже добавил похожее в модель o3.

Стартап по проверке чертежей добился роста точности

Google приводит пример платформы PlanCheckSolver.com, которая ищет нарушения норм в строительных чертежах. Разработчики повысили точность на 5%, позволив Gemini 3 Flash последовательно просматривать детальные планы. Модель выделяет участки вроде краёв крыши или частей зданий и анализирует их по отдельности.

При разметке изображений модель рисует рамки и надписи. Google показывает это на примере подсчёта пальцев: она обводит каждый палец рамкой с номером, чтобы избежать ошибок.

С визуальными задачами по математике модель разбирает таблицы, проводит расчёты в среде Python вместо выдумывания ответов. Потом выдаёт результаты в виде графиков.

Большинство возможностей требует прямых указаний

Google отмечает, что автоматическая работа пока не для всех функций. Модель сама справляется с увеличением мелких деталей, но для поворота изображений или математических задач нужны чёткие промты. Эти ограничения обещают устранить в обновлениях.

Agentic Vision доступна только в версии Flash. Google собирается распространить её на другие модели и добавить инструменты вроде поиска в интернете или обратного поиска по картинкам.

Функцию можно опробовать через Gemini API в Google AI Studio и Vertex AI. В приложении Gemini развёртывание уже началось — выберите "Thinking" в списке моделей. Есть демо-приложение и документация для разработчиков.

Gemini 3 Flash активно исследует изображения кодом

Стартап по проверке чертежей добился роста точности

Большинство возможностей требует прямых указаний

Горячее

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Claude Cowork уязвим к краже файлов

Знакомство со Stickerbox: ИИ для детских стикеров

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде