LangChain: крупные фирмы лидируют в ИИ-агентах

LangChain опросила 1300 специалистов: крупные компании с 67% внедрений ИИ-агентов в продакшене опережают стартапы. 89% используют мониторинг, но только 52,4% тестируют офлайн, а качество стало главной проблемой вместо затрат.

Обзор отчёта о состоянии инженерии агентов

Введение

LangChain — популярный фреймворк для разработки и координации приложений на базе больших языковых моделей и инженерии агентов — представила отчёт State of Agent Engineering. В исследовании участвовали 1300 специалистов разных профессий и отраслей, чтобы понять, как сейчас обстоят дела с этим направлением ИИ.

Мы выбрали три главных вывода из отчёта, разъяснили их простым языком и добавили объяснения базовых терминов про ИИ-агентов.

Сначала коротко разберём ключевые понятия, чтобы было проще разобраться в цифрах и выводах.

Крупные компании опережают стартапы в запуске

Основные термины:

Агент: это ИИ-система, которая самостоятельно решает задачи и действует, в отличие от обычных чат-ботов, просто отвечающих на сообщения. Обычно агент использует большую языковую модель как центр мышления — она определяет следующие шаги, например, поиск в базе данных, отправку письма или веб-поиск, чтобы достичь цели.
Продакшен: базовый термин из разработки софта. Система в продакшене работает вживую — ею пользуются реальные пользователи, клиенты или сотрудники. Это этап после прототипа или доказательства концепции (PoC), где тестируют в контролируемых условиях и исправляют проблемы.

Что показывают данные отчёта:

Хотя часто думают, что большие фирмы тормозят с новыми технологиями из-за бюрократии, цифры говорят обратное: они впереди в запуске ИИ-агентов. У 67% компаний с более чем 10 000 сотрудников такие приложения уже в продакшене, а среди фирм с менее чем 100 сотрудниками — только 50%.
Объяснение может крыться в расходах на создание надёжных агентов — требуется серьёзная инфраструктура.

Похожие выводы есть в отчётах Deloitte State of AI in the Enterprise, 2026 и McKinsey State of AI, 2025.

Разрыв между мониторингом и тестами

Ключевые понятия:

Мониторинг (observability): продвинутые ИИ-модели кажутся чёрными ящиками с непредсказуемыми результатами. Мониторинг позволяет отслеживать, что модель "думает" и как приходит к выводам.
Трассировка (tracing): часть мониторинга — фиксация шагов агента, его пути рассуждений.
Офлайн-оценка: проверка на тестовом наборе данных с известными правильными ответами, чтобы измерить точность и эффективность агента или другой ИИ-системы.

Факты из отчёта:

Цифры впечатляют: 89% респондентов внедрили мониторинг, но офлайн-оценки проводят лишь 52,4%. Это подчёркивает разницу между тем, как команды следят за агентами в работе, и тем, насколько тщательно проверяют их заранее.
Подход "запускай и смотри" ставит акцент на исправлении ошибок постфактум, а не на их предотвращении до релиза. Починить "сломанного робота" после выхода дороже и рискованнее, чем убедиться в его исправности на "заводе".

Подобные наблюдения описаны в материале Giskard о мониторинге и оценке LLM.

Затраты отошли на второй план: главное — качество

Что важно знать:

Галлюцинации: когда языковая модель уверенно выдаёт ложную или бессмысленную информацию. Для агентов это особенно опасно — не только слова, но и действия могут пойти наперекосяк, например, бронирование рейса по неверным данным.
Задержка (latency): время от запроса пользователя до ответа агента, включая промежуточную обработку с инструментами. Это дольше, чем у простых LLM или чат-ботов.

Данные отчёта:

Развёртывание ИИ-агентов уже не пугает расходами, но 32% называют качество главной преградой. Здесь под качеством понимают точность, стабильность и отсутствие галлюцинаций.
Второй барьер зависит от размера: маленькие стартапы жалуются на задержки, а предприятия с более 2000 сотрудников — на безопасность и соответствие нормам.

Обзор отчёта LangChain о состоянии ИИ-агентов

Введение

Крупные компании опережают стартапы в запуске

Разрыв между мониторингом и тестами

Затраты отошли на второй план: главное — качество

Горячее