В новой работе ученые из Google и Калифорнийского университета в Санта-Барбаре создали подход, который позволяет агентам на базе больших языковых моделей эффективнее расходовать бюджеты на инструменты и вычисления. Они предложили два новшества: простой "Budget Tracker" и более полный фреймворк под названием "Budget Aware Test-time Scaling". Эти инструменты дают агентам четкое понимание оставшихся лимитов на размышления и вызовы инструментов.
Поскольку ИИ-агенты зависят от вызовов инструментов для взаимодействия с реальным миром, масштабирование на этапе тестирования теперь больше касается контроля затрат и задержек, чем улучшения самих моделей.
Для руководителей компаний и разработчиков такие методы с учетом бюджета открывают путь к надежному развертыванию ИИ-агентов без неожиданных расходов или снижения отдачи от вложений в вычисления.
Проблема масштабирования использования инструментов
Классическое масштабирование на этапе тестирования подразумевает, что модели дольше "думают". Но для задач агентов, таких как просмотр веб-страниц, количество вызовов инструментов определяет глубину и широту поиска.
Это создает серьезную нагрузку на операции бизнеса. Вызовы инструментов вроде просмотра страниц увеличивают расход токенов, удлиняют контекст и добавляют задержки. Кроме того, сами вызовы инструментов несут дополнительные расходы на API.
Ученые выяснили, что простое увеличение ресурсов на тестирование не всегда повышает эффективность. В сложных исследовательских задачах агент без ощущения бюджета часто углубляется в неверное направление: находит намек, тратит 10 или 20 вызовов инструментов на него, а потом понимает, что это тупик.
Оптимизация ресурсов с помощью Budget Tracker
Чтобы проверить, как улучшить бюджеты на инструменты, исследователи применили легкий модуль "Budget Tracker". Он работает как надстройка, постоянно сигнализируя агенту о доступных ресурсах и помогая учитывать бюджет при выборе инструментов.
Команда предположила, что явные сигналы о бюджете позволят модели усвоить ограничения и скорректировать тактику без дообучения.
Budget Tracker действует только через промпты, что упрощает внедрение. В статье подробно описаны промпты для него.

В реализации от Google трекер дает краткие правила по режимам бюджета и советам по инструментам. На каждом шаге ответа он сообщает агенту об израсходованных и оставшихся ресурсах, чтобы дальнейшие размышления учитывали актуальное состояние.
Для проверки ученые протестировали два подхода: последовательное масштабирование, где модель уточняет вывод по шагам, и параллельное, где запускают несколько независимых сессий и объединяют результаты. Эксперименты прошли на поисковых агентах с инструментами поиска и просмотра в цикле по стилю ReAct. ReAct (Reasoning + Acting) — это метод, где модель чередует размышления и действия. Чтобы отследить зависимость затрат от производительности, ввели общий показатель стоимости, учитывающий токены размышлений и взаимодействия с инструментами.
Тестировали Budget Tracker на трех наборах данных для вопросов, требующих внешнего поиска: BrowseComp и HLE-Search. Использовали модели вроде Gemini 2.5 Pro, Gemini 2.5 Flash и Claude Sonnet 4. Плагин повышает точность при разных бюджетах.

Budget Tracker дает сопоставимую точность с 40,4% меньшим числом поисковых вызовов, 19,9% меньшим числом просмотров и на 31,3% меньшими общими затратами. Кроме того, он продолжает расти с увеличением бюджета, в отличие от чистого ReAct, который останавливается на пороге.
BATS: комплексный фреймворк для масштабирования с учетом бюджета
Для дальнейшей оптимизации ресурсов на инструменты ученые разработали Budget Aware Test-time Scaling (BATS) — фреймворк, который максимизирует эффективность агента в заданных бюджетах. BATS держит постоянный сигнал об остатках ресурсов и динамически меняет поведение агента во время формирования ответа.
BATS координирует действия через несколько модулей. Модуль планирования подстраивает усилия под текущий бюджет, а модуль проверки решает, углубляться ли в перспективное направление или переключиться на другое с учетом ресурсов.

Получив вопрос на поиск информации и бюджет на инструменты, BATS запускает планирование для создания плана действий и выбора инструментов. Ответы инструментов добавляются в последовательность размышлений как новые доказательства. Когда агент выдает вариант ответа, проверка оценивает его и решает, продолжить ли текущую ветку или начать новую с остатками бюджета.
Процесс завершается по исчерпанию ресурсов, после чего модель-судья выбирает лучший из проверенных ответов. Budget Tracker обновляет статистику ресурсов на каждом шаге.
Исследователи оценили BATS на BrowseComp, BrowseComp-ZH и HLE-Search в сравнении с ReAct и обученными агентами. BATS показывает лучшие результаты при меньшем числе вызовов инструментов и общих затрат. На базе Gemini 2.5 Pro BATS набирает 24,6% точности на BrowseComp против 12,6% у ReAct и 27,0% на HLE-Search против 20,5%.
BATS повышает эффективность в ограничениях и улучшает баланс затрат и точности. На BrowseComp он достигает высокой точности за ~23 цента, в то время как параллельное масштабирование требует свыше 50 центов для похожего результата.

Такая эффективность делает доступными раньше дорогие процессы. Это открывает перспективы для длительных задач вроде обслуживания кодовых баз, проверок due diligence, анализа рынков, аудитов соответствия и многоэтапного разбора документов.
Компании, внедряющие агентов с самостоятельным управлением ресурсами, будут ориентироваться на баланс точности и затрат.
Связь между размышлениями моделей и экономикой становится неразрывной. В будущем моделям придется оценивать ценность своих действий.