Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Gemini 3 Flash активно исследует изображения кодом

Google DeepMind добавил в Gemini 3 Flash функцию Agentic Vision: модель теперь активно изучает изображения через Python-код, повышая точность на 5–10%. Стартапы уже используют это для анализа чертежей, а видео демонстрируют разметку и математику. Пока не все работает автоматически, но расширения на подходят.

28 января 2026 г.
3 мин
15

Google DeepMind внедряет в модель Gemini 3 Flash функцию "Agentic Vision". Теперь она не просто смотрит на картинки, а может их детально изучать — хотя некоторые возможности пока требуют подсказок.

Обычные ИИ-модели сканируют изображения за один раз. Пропустили мелочь — остаётся только предполагать. С Agentic Vision Google DeepMind меняет это: модель шаг за шагом увеличивает масштаб, обрезает фрагменты и работает с изображениями, создавая и запуская Python-код.

Процесс идёт по циклу размышление-действие-наблюдение. Модель сначала разбирает запрос и картинку, намечает план. Потом пишет и выполняет Python-код — например, для обрезки, поворота или разметки изображений. Результат попадает в контекстное окно, и модель его проверяет перед финальным ответом. Google сообщает, что такой подход повышает качество на 5–10% по различным визуальным тестам.

Идея не совсем свежая: OpenAI уже добавил похожее в модель o3.

Стартап по проверке чертежей добился роста точности

Google приводит пример платформы PlanCheckSolver.com, которая ищет нарушения норм в строительных чертежах. Разработчики повысили точность на 5%, позволив Gemini 3 Flash последовательно просматривать детальные планы. Модель выделяет участки вроде краёв крыши или частей зданий и анализирует их по отдельности.

При разметке изображений модель рисует рамки и надписи. Google показывает это на примере подсчёта пальцев: она обводит каждый палец рамкой с номером, чтобы избежать ошибок.

С визуальными задачами по математике модель разбирает таблицы, проводит расчёты в среде Python вместо выдумывания ответов. Потом выдаёт результаты в виде графиков.

Большинство возможностей требует прямых указаний

Google отмечает, что автоматическая работа пока не для всех функций. Модель сама справляется с увеличением мелких деталей, но для поворота изображений или математических задач нужны чёткие промты. Эти ограничения обещают устранить в обновлениях.

Agentic Vision доступна только в версии Flash. Google собирается распространить её на другие модели и добавить инструменты вроде поиска в интернете или обратного поиска по картинкам.

Функцию можно опробовать через Gemini API в Google AI Studio и Vertex AI. В приложении Gemini развёртывание уже началось — выберите "Thinking" в списке моделей. Есть демо-приложение и документация для разработчиков.