Специалисты из Nvidia и Университета Гонконга представили Orchestrator — модель с 8 миллиардами параметров. Она координирует инструменты и большие языковые модели для решения сложных задач. В тестах Orchestrator показал лучшую точность при меньших расходах, чем крупные модели, в бенчмарках по работе с инструментами. При этом он учитывал предпочтения пользователей по выбору инструментов для конкретного запроса.
Обучение прошло с помощью ToolOrchestra — свежего фреймворка на базе обучения с подкреплением. Он готовит компактные модели к роли координаторов. Суть в том, что небольшой оркестратор, распределяющий задачи по команде специализированных моделей и инструментов, работает эффективнее единой громоздкой системы ИИ.
Такие составные решения открывают путь к надежным и расширяемым системам ИИ-рассуждений для компаний.
Ограничения сегодняшней работы LLM с инструментами
Доступ к внешним инструментам помогает большим языковым моделям выходить за рамки своих данных и браться за агентские задания. С помощью поисковиков или интерпретаторов кода агенты повышают точность и справляются с задачами прямо в приложениях.
В сопутствующей статье авторы подчеркивают: существующие способы создания агентов с инструментами не используют весь потенциал подхода. Обычно одной мощной модели дают набор простых утилит вроде веб-поиска или калькулятора.
При рассуждениях люди опираются на ресурсы, превосходящие человеческие способности: от экспертов по темам до продвинутых процессов и софта. Большие языковые модели тоже должны взаимодействовать с разнообразными инструментами по-разному.
Подход с оркестрацией инструментов
Статья предлагает отказаться от единой модели в пользу системы из частей под управлением легкого оркестратора. Его задача — разобрать сложную проблему, выбрать подходящие инструменты и задействовать их последовательно до результата.
В набор входят не только обычные утилиты вроде поиска или интерпретаторов кода, но и другие языковые модели разной специализации как "умные инструменты". Оркестратор может передать вопрос по расчетам модели для математики или задачу по программированию — генератору кода. Вместо нагрузки на одну универсальную модель он распределяет уточненные подзадачи по специалистам.

На этой основе создали ToolOrchestra — метод, который применяет обучение с подкреплением, чтобы подготовить малую языковую модель к роли оркестратора. Она постигает, когда и как привлекать другие модели с инструментами, а также как объединять их результаты в многошаговых рассуждениях. Инструменты задаются в простом формате JSON с указанием имени, описания и параметров.
Процесс обучения с подкреплением опирается на систему вознаграждений для создания экономичного и управляемого агента. Вознаграждение учитывает три цели: верность итогового ответа, экономию на расходах и задержках, соответствие предпочтениям пользователя. Система штрафует за лишние вычисления и поощряет выбор одобренных инструментов, например открытые модели вместо закрытых API из-за приватности. Для обучения команда собрала автоматический поток данных с тысячами проверяемых примеров по 10 областям.

Компактная модель с сильными показателями
ToolOrchestra использовали для подготовки Orchestrator — модели с 8 миллиардами параметров на базе Qwen3-8B. Ее проверили на трех сложных тестах: Humanity’s Last Exam (HLE), FRAMES и Tau2-Bench. Сравнение шло с базовыми моделями — крупными готовыми LLM с инструментами и без.
Даже сильные модели без инструментов плохо справлялись со сложными задачами, что подтверждает их нужду. Инструменты помогали большим моделям, но резко повышали цену и время отклика.
Orchestrator на 8B параметрах дал отличные итоги. На HLE с вопросами уровня PhD он сильно обошел предыдущие методы при минимальных вычислительных затратах. В Tau2-Bench по вызову функций он грамотно распределял инструменты, обращаясь к крупной модели вроде GPT-5 лишь в 40% шагов и используя дешевые альтернативы в остальных, но все равно опередил агента с постоянным использованием большой модели.

Авторы отметили: обученный с подкреплением Orchestrator подстраивается под свежие задачи и демонстрирует сильные общие способности к рассуждениям. Для бизнеса важно, что он хорошо работает с незнакомыми моделями и схемами ценообразования. Эта гибкость подходит компаниям, сочетающим публичные, приватные и собственные ИИ-модели с инструментами. Низкие затраты, быстрота и настройка делают подход удобным для создания продвинутых масштабируемых агентов.
С ростом интереса к агентам ИИ оркестрация ведет к системам, которые не только умнее, но и дешевле в использовании с лучшим контролем. Веса модели Orchestrator-8B доступны на Hugging Face под некоммерческой лицензией, а код обучения — на GitHub под Apache 2.0.
Статья заканчивается взглядом в будущее: впереди рекурсивные оркестраторы покроют новые вершины интеллекта и повысят эффективность на все более запутанных агентских задачах.