Nvidia Orchestrator: 8B-модель координирует ИИ-инструменты

Специалисты из Nvidia и Университета Гонконга представили Orchestrator — модель с 8 миллиардами параметров. Она координирует инструменты и большие языковые модели для решения сложных задач. В тестах Orchestrator показал лучшую точность при меньших расходах, чем крупные модели, в бенчмарках по работе с инструментами. При этом он учитывал предпочтения пользователей по выбору инструментов для конкретного запроса.

Обучение прошло с помощью ToolOrchestra — свежего фреймворка на базе обучения с подкреплением. Он готовит компактные модели к роли координаторов. Суть в том, что небольшой оркестратор, распределяющий задачи по команде специализированных моделей и инструментов, работает эффективнее единой громоздкой системы ИИ.

Такие составные решения открывают путь к надежным и расширяемым системам ИИ-рассуждений для компаний.

Ограничения сегодняшней работы LLM с инструментами

Доступ к внешним инструментам помогает большим языковым моделям выходить за рамки своих данных и браться за агентские задания. С помощью поисковиков или интерпретаторов кода агенты повышают точность и справляются с задачами прямо в приложениях.

В сопутствующей статье авторы подчеркивают: существующие способы создания агентов с инструментами не используют весь потенциал подхода. Обычно одной мощной модели дают набор простых утилит вроде веб-поиска или калькулятора.

При рассуждениях люди опираются на ресурсы, превосходящие человеческие способности: от экспертов по темам до продвинутых процессов и софта. Большие языковые модели тоже должны взаимодействовать с разнообразными инструментами по-разному.

Подход с оркестрацией инструментов

Статья предлагает отказаться от единой модели в пользу системы из частей под управлением легкого оркестратора. Его задача — разобрать сложную проблему, выбрать подходящие инструменты и задействовать их последовательно до результата.

В набор входят не только обычные утилиты вроде поиска или интерпретаторов кода, но и другие языковые модели разной специализации как "умные инструменты". Оркестратор может передать вопрос по расчетам модели для математики или задачу по программированию — генератору кода. Вместо нагрузки на одну универсальную модель он распределяет уточненные подзадачи по специалистам.

Фреймворк ToolOrchestra (источник: arXiv)

На этой основе создали ToolOrchestra — метод, который применяет обучение с подкреплением, чтобы подготовить малую языковую модель к роли оркестратора. Она постигает, когда и как привлекать другие модели с инструментами, а также как объединять их результаты в многошаговых рассуждениях. Инструменты задаются в простом формате JSON с указанием имени, описания и параметров.

Процесс обучения с подкреплением опирается на систему вознаграждений для создания экономичного и управляемого агента. Вознаграждение учитывает три цели: верность итогового ответа, экономию на расходах и задержках, соответствие предпочтениям пользователя. Система штрафует за лишние вычисления и поощряет выбор одобренных инструментов, например открытые модели вместо закрытых API из-за приватности. Для обучения команда собрала автоматический поток данных с тысячами проверяемых примеров по 10 областям.

Баланс в ToolOrchestra — Модель, обученная на ToolOrchestra, превосходит универсальные модели с инструментами (источник: arXiv)

Компактная модель с сильными показателями

ToolOrchestra использовали для подготовки Orchestrator — модели с 8 миллиардами параметров на базе Qwen3-8B. Ее проверили на трех сложных тестах: Humanity’s Last Exam (HLE), FRAMES и Tau2-Bench. Сравнение шло с базовыми моделями — крупными готовыми LLM с инструментами и без.

Даже сильные модели без инструментов плохо справлялись со сложными задачами, что подтверждает их нужду. Инструменты помогали большим моделям, но резко повышали цену и время отклика.

Orchestrator на 8B параметрах дал отличные итоги. На HLE с вопросами уровня PhD он сильно обошел предыдущие методы при минимальных вычислительных затратах. В Tau2-Bench по вызову функций он грамотно распределял инструменты, обращаясь к крупной модели вроде GPT-5 лишь в 40% шагов и используя дешевые альтернативы в остальных, но все равно опередил агента с постоянным использованием большой модели.

Результаты Orchestrator от Nvidia — Orchestrator опережает базовые методы с инструментами в ключевых бенчмарках (источник: arXiv)

Авторы отметили: обученный с подкреплением Orchestrator подстраивается под свежие задачи и демонстрирует сильные общие способности к рассуждениям. Для бизнеса важно, что он хорошо работает с незнакомыми моделями и схемами ценообразования. Эта гибкость подходит компаниям, сочетающим публичные, приватные и собственные ИИ-модели с инструментами. Низкие затраты, быстрота и настройка делают подход удобным для создания продвинутых масштабируемых агентов.

С ростом интереса к агентам ИИ оркестрация ведет к системам, которые не только умнее, но и дешевле в использовании с лучшим контролем. Веса модели Orchestrator-8B доступны на Hugging Face под некоммерческой лицензией, а код обучения — на GitHub под Apache 2.0.

Статья заканчивается взглядом в будущее: впереди рекурсивные оркестраторы покроют новые вершины интеллекта и повысят эффективность на все более запутанных агентских задачах.

Orchestrator от Nvidia: умный координатор ИИ

Ограничения сегодняшней работы LLM с инструментами

Подход с оркестрацией инструментов

Компактная модель с сильными показателями

Горячее

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Claude Cowork уязвим к краже файлов

Знакомство со Stickerbox: ИИ для детских стикеров

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде