Фреймворк Google помогает ИИ-агентам экономить ресурсы

В новой работе ученые из Google и Калифорнийского университета в Санта-Барбаре создали подход, который позволяет агентам на базе больших языковых моделей эффективнее расходовать бюджеты на инструменты и вычисления. Они предложили два новшества: простой "Budget Tracker" и более полный фреймворк под названием "Budget Aware Test-time Scaling". Эти инструменты дают агентам четкое понимание оставшихся лимитов на размышления и вызовы инструментов.

Поскольку ИИ-агенты зависят от вызовов инструментов для взаимодействия с реальным миром, масштабирование на этапе тестирования теперь больше касается контроля затрат и задержек, чем улучшения самих моделей.

Для руководителей компаний и разработчиков такие методы с учетом бюджета открывают путь к надежному развертыванию ИИ-агентов без неожиданных расходов или снижения отдачи от вложений в вычисления.

Проблема масштабирования использования инструментов

Классическое масштабирование на этапе тестирования подразумевает, что модели дольше "думают". Но для задач агентов, таких как просмотр веб-страниц, количество вызовов инструментов определяет глубину и широту поиска.

Это создает серьезную нагрузку на операции бизнеса. Вызовы инструментов вроде просмотра страниц увеличивают расход токенов, удлиняют контекст и добавляют задержки. Кроме того, сами вызовы инструментов несут дополнительные расходы на API.

Ученые выяснили, что простое увеличение ресурсов на тестирование не всегда повышает эффективность. В сложных исследовательских задачах агент без ощущения бюджета часто углубляется в неверное направление: находит намек, тратит 10 или 20 вызовов инструментов на него, а потом понимает, что это тупик.

Оптимизация ресурсов с помощью Budget Tracker

Чтобы проверить, как улучшить бюджеты на инструменты, исследователи применили легкий модуль "Budget Tracker". Он работает как надстройка, постоянно сигнализируя агенту о доступных ресурсах и помогая учитывать бюджет при выборе инструментов.

Команда предположила, что явные сигналы о бюджете позволят модели усвоить ограничения и скорректировать тактику без дообучения.

Budget Tracker действует только через промпты, что упрощает внедрение. В статье подробно описаны промпты для него.

В реализации от Google трекер дает краткие правила по режимам бюджета и советам по инструментам. На каждом шаге ответа он сообщает агенту об израсходованных и оставшихся ресурсах, чтобы дальнейшие размышления учитывали актуальное состояние.

Для проверки ученые протестировали два подхода: последовательное масштабирование, где модель уточняет вывод по шагам, и параллельное, где запускают несколько независимых сессий и объединяют результаты. Эксперименты прошли на поисковых агентах с инструментами поиска и просмотра в цикле по стилю ReAct. ReAct (Reasoning + Acting) — это метод, где модель чередует размышления и действия. Чтобы отследить зависимость затрат от производительности, ввели общий показатель стоимости, учитывающий токены размышлений и взаимодействия с инструментами.

Тестировали Budget Tracker на трех наборах данных для вопросов, требующих внешнего поиска: BrowseComp и HLE-Search. Использовали модели вроде Gemini 2.5 Pro, Gemini 2.5 Flash и Claude Sonnet 4. Плагин повышает точность при разных бюджетах.

Результаты Budget Tracker — Budget Tracker продолжает улучшаться, в то время как ReAct стабилизируется после определенного порога бюджета (источник: arXiv)

Budget Tracker дает сопоставимую точность с 40,4% меньшим числом поисковых вызовов, 19,9% меньшим числом просмотров и на 31,3% меньшими общими затратами. Кроме того, он продолжает расти с увеличением бюджета, в отличие от чистого ReAct, который останавливается на пороге.

BATS: комплексный фреймворк для масштабирования с учетом бюджета

Для дальнейшей оптимизации ресурсов на инструменты ученые разработали Budget Aware Test-time Scaling (BATS) — фреймворк, который максимизирует эффективность агента в заданных бюджетах. BATS держит постоянный сигнал об остатках ресурсов и динамически меняет поведение агента во время формирования ответа.

BATS координирует действия через несколько модулей. Модуль планирования подстраивает усилия под текущий бюджет, а модуль проверки решает, углубляться ли в перспективное направление или переключиться на другое с учетом ресурсов.

Получив вопрос на поиск информации и бюджет на инструменты, BATS запускает планирование для создания плана действий и выбора инструментов. Ответы инструментов добавляются в последовательность размышлений как новые доказательства. Когда агент выдает вариант ответа, проверка оценивает его и решает, продолжить ли текущую ветку или начать новую с остатками бюджета.

Процесс завершается по исчерпанию ресурсов, после чего модель-судья выбирает лучший из проверенных ответов. Budget Tracker обновляет статистику ресурсов на каждом шаге.

Исследователи оценили BATS на BrowseComp, BrowseComp-ZH и HLE-Search в сравнении с ReAct и обученными агентами. BATS показывает лучшие результаты при меньшем числе вызовов инструментов и общих затрат. На базе Gemini 2.5 Pro BATS набирает 24,6% точности на BrowseComp против 12,6% у ReAct и 27,0% на HLE-Search против 20,5%.

BATS повышает эффективность в ограничениях и улучшает баланс затрат и точности. На BrowseComp он достигает высокой точности за ~23 цента, в то время как параллельное масштабирование требует свыше 50 центов для похожего результата.

Результаты и затраты BATS — BATS масштабируется и обеспечивает лучшие соотношения затрат/точности по сравнению с базовыми методами (источник: arXiv)

Такая эффективность делает доступными раньше дорогие процессы. Это открывает перспективы для длительных задач вроде обслуживания кодовых баз, проверок due diligence, анализа рынков, аудитов соответствия и многоэтапного разбора документов.

Компании, внедряющие агентов с самостоятельным управлением ресурсами, будут ориентироваться на баланс точности и затрат.

Связь между размышлениями моделей и экономикой становится неразрывной. В будущем моделям придется оценивать ценность своих действий.

Новый фреймворк Google для экономии ресурсов ИИ

Проблема масштабирования использования инструментов

Оптимизация ресурсов с помощью Budget Tracker

BATS: комплексный фреймворк для масштабирования с учетом бюджета

Горячее

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Claude Cowork уязвим к краже файлов

Знакомство со Stickerbox: ИИ для детских стикеров

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде