Google DeepMind представила Gemini Robotics-ER 1.6 — обновлённую модель для воплощённых рассуждений у роботов. Она работает как высший слой мышления, позволяя устройствам самостоятельно разбираться в окружении и составлять планы действий. При необходимости модель подключает инструменты вроде Google Search или модели видение-язык-действие.
Разработчики из DeepMind утверждают, что свежая версия опережает Gemini Robotics-ER 1.5 и Gemini 3.0 Flash в указании на предметы, подсчёте объектов и оценке успешности заданий.
Существенно выросли возможности по считыванию данных с манометров и смотровых стёкол — это направление создавалось вместе с Boston Dynamics. Модель объединяет агентскую обработку изображений с запуском кода: она увеличивает фрагменты для фиксации мелких деталей на экранах, задействует инструменты указывания и расчёты в коде для определения пропорций и расстояний, а потом опирается на общие знания о мире, чтобы расшифровать показания. Робот Spot от Boston Dynamics уже применяет эту функцию при проверках оборудования.
Модель можно протестировать через Gemini API и Google AI Studio. Для разработчиков есть пример в Colab.