Stanford: когда команды ИИ-агентов лучше solo

Ученые Stanford выяснили: многозагентные ИИ-системы выигрывают в основном за счет большего объема вычислений, одиночные агенты при равных ресурсах не уступают. Команды полезны при длинных контекстах, зашумленных данных и слабых моделях, особенно в дебатах.

Многозагентные системы ИИ часто кажутся мощнее. Новое исследование Stanford объясняет это большим расходом вычислений. Однако бывают случаи, когда командная работа действительно дает преимущество.

Сейчас в исследованиях ИИ популярен подход с несколькими агентами: модели делят задачу, обсуждают варианты или взаимно проверяют выводы. Такой командный метод должен давать точные ответы на сложные вопросы, где нужно несколько шагов рассуждений.

Ученые из Stanford ставят под сомнение эту идею. Их вывод: если одиночный агент и команда тратят одинаково вычислений, то solo-агент справляется не хуже.

Каждая передача данных приводит к потерям

По мнению авторов, причина в обмене промежуточными результатами между агентами — на каждом этапе теряется часть важной информации. Одиночный агент же ведет непрерывный процесс мышления, не расставаясь ни с одной деталью.

Команда проверила четыре модели — Qwen3-30B-A3B, DeepSeek-R1-Distill-Llama-70B, а также Gemini 2.5 Flash и Pro — на двух тестах для задач с несколькими шагами рассуждений. Сравнили solo-агента с пятью вариантами команд: последовательные цепочки, дебаты и ансамбли.

Вывод однозначен: при равных вычислительных затратах одиночный агент почти всегда лидирует или показывает паритет. При этом он тратит заметно меньше ресурсов, чем группы.

Длинные контексты — ахиллесова пята одиночных агентов

Авторы признают: преимущество solo работает только при идеальной работе с контекстом. На деле языковые модели с этим справляются плохо — чем длиннее цепочка рассуждений, тем труднее отделить полезное от шума. Это называют context rot и эффектом lost in the middle, когда модели игнорируют данные в середине длинных текстов.

Здесь команды уходят вперед. В тестах с специально искаженным вводом структурированные группы обгоняли solo-агента при сильных помехах: разделение труда позволяло эффективнее отсеивать нужное. Группы сильнее помогали слабым базовым моделям. Анализ ошибок показал: solo-агенты мыслят узко, а команды охватывают шире и иногда находят то, что пропускает одиночка. Самым эффективным оказался формат дебатов.

Исследование охватывает только текстовые задачи на рассуждения. Преимущества команд для работы с инструментами или изображениями не изучены.

Исследование Stanford: когда команды ИИ-агентов оправданы

Каждая передача данных приводит к потерям

Длинные контексты — ахиллесова пята одиночных агентов

Горячее

Seedance 2.5 от ByteDance: ИИ-видео до 30 секунд без склеек

Adobe добавила ИИ-агентов в Photoshop Premiere

Как быстро запустить дата-центр? Дайте ему гибкость в энергопотреблении

Subquadratic утверждает, что решила ключевую проблему больших языковых моделей

Личный ИИ-ассистент на Python: опыт создания с GPT-4o

Сейчас в тренде