Google DeepMind внедряет в модель Gemini 3 Flash функцию "Agentic Vision". Теперь она не просто смотрит на картинки, а может их детально изучать — хотя некоторые возможности пока требуют подсказок.
Обычные ИИ-модели сканируют изображения за один раз. Пропустили мелочь — остаётся только предполагать. С Agentic Vision Google DeepMind меняет это: модель шаг за шагом увеличивает масштаб, обрезает фрагменты и работает с изображениями, создавая и запуская Python-код.
Процесс идёт по циклу размышление-действие-наблюдение. Модель сначала разбирает запрос и картинку, намечает план. Потом пишет и выполняет Python-код — например, для обрезки, поворота или разметки изображений. Результат попадает в контекстное окно, и модель его проверяет перед финальным ответом. Google сообщает, что такой подход повышает качество на 5–10% по различным визуальным тестам.
Идея не совсем свежая: OpenAI уже добавил похожее в модель o3.
Стартап по проверке чертежей добился роста точности
Google приводит пример платформы PlanCheckSolver.com, которая ищет нарушения норм в строительных чертежах. Разработчики повысили точность на 5%, позволив Gemini 3 Flash последовательно просматривать детальные планы. Модель выделяет участки вроде краёв крыши или частей зданий и анализирует их по отдельности.
При разметке изображений модель рисует рамки и надписи. Google показывает это на примере подсчёта пальцев: она обводит каждый палец рамкой с номером, чтобы избежать ошибок.
С визуальными задачами по математике модель разбирает таблицы, проводит расчёты в среде Python вместо выдумывания ответов. Потом выдаёт результаты в виде графиков.
Большинство возможностей требует прямых указаний
Google отмечает, что автоматическая работа пока не для всех функций. Модель сама справляется с увеличением мелких деталей, но для поворота изображений или математических задач нужны чёткие промты. Эти ограничения обещают устранить в обновлениях.
Agentic Vision доступна только в версии Flash. Google собирается распространить её на другие модели и добавить инструменты вроде поиска в интернете или обратного поиска по картинкам.
Функцию можно опробовать через Gemini API в Google AI Studio и Vertex AI. В приложении Gemini развёртывание уже началось — выберите "Thinking" в списке моделей. Есть демо-приложение и документация для разработчиков.