ИИ-агенты на работе: слабости по бенчмарку APEX

Почему ИИ пока не меняет офисные профессии

Прошло почти два года с момента, когда CEO Microsoft Сатья Наделла предсказал замену интеллектуального труда ИИ — работы юристов, инвестиционных банкиров, библиотекарей, бухгалтеров, IT-специалистов и подобных специалистов.

Базовые модели добились значительного прогресса, однако изменения в офисной сфере наступают неспешно. ИИ уверенно проводит глубокие исследования и планирует действия агентов, но большая часть такой деятельности по-прежнему выполняется людьми.

Эта загадка ИИ-разработки наконец-то получает разъяснения благодаря свежему исследованию от Mercor — компании-лидера в подготовке обучающих данных.

Авторы оценили способности ведущих ИИ-моделей к решению настоящих офисных задач из сфер консалтинга, инвестиционного банкинга и юриспруденции. Итог — бенчмарк APEX-Agents. Пока все ИИ-лаборатории проваливают его: на вопросы реальных профессионалов даже сильнейшие модели дают верные ответы меньше чем в четверти случаев. В большинстве ситуаций следует неверный результат или молчание вовсе.

CEO Mercor Брендан Фуди, соавтор исследования, выделяет ключевую слабость моделей — умение собирать данные из разных источников, что лежит в основе типичной человеческой офисной рутины.

"Мы сконструировали полную рабочую среду по образцу реальных профессиональных сервисов", — поделился Фуди с TechCrunch. "На практике информация разбросана по Slack, Google Drive и прочим сервисам, а не свалена в одном месте от одного человека". Для агентских ИИ подобное мышление в нескольких доменах остается нестабильным.

Скриншот таблицы результатов бенчмарка APEX-Agents — Скриншот

Задачи составили эксперты маркетплейса Mercor — они же задали стандарты удачных ответов. Вопросы выложены открыто на Hugging Face и демонстрируют высокую сложность сценариев.

Пример из раздела "Право":

В первые 48 минут сбоя производства в ЕС инженеры Northstar передали американскому аналитическому поставщику один или два пакета логов событий производства ЕС с персональными данными... По внутренним правилам Northstar такие один-два экспорта логов укладываются в статью 49?

Верный ответ — да, однако путь к нему лежит через тщательный разбор корпоративных политик и норм ЕС по защите данных.

Задача способна поставить в тупик даже знающего человека, но цель — отразить будни профессионалов. Надежное решение подобных вопросов ИИ-моделью сделает ненужными многих сегодняшних юристов. "Это главная экономическая тема", — подчеркнул Фуди в беседе с TechCrunch. "Тест точно передает суть их повседневных дел".

OpenAI уже измерял профнавыки через свой GDPval, но APEX-Agents выделяется. В отличие от общего охвата профессий в GDPval, этот бенчмарк проверяет устойчивость работы в избранных высокоценных областях. Тест тяжелее для моделей, зато точнее показывает возможность автоматизации этих ролей.

Итоги испытаний топ-моделей

Никто из участников не дотянул до уровня банкира, однако разрыв сокращается. Лидер — Gemini 3 Flash с 24% точностью в однократном прохождении, следом GPT-5.2 на 23%. Opus 4.5, Gemini 3 Pro и GPT-5 держатся около 18%.

Открытый вызов и динамика улучшений

Начальные показатели скромны, но ИИ-сфера привыкла перешагивать через трудные бенчмарки. Публикация APEX-Agents превращает его в вызов для лабораторий — Фуди уверен в скорых прорывах.

"Улучшения идут семимильными шагами", — отметил он для TechCrunch. "Сегодня это стажер с успехом в четверти заданий, год назад — с 5-10%. Такой темп год за годом творит чудеса".

Готовы ли ИИ-агенты к офисной работе? Новый тест сеет сомнения

Почему ИИ пока не меняет офисные профессии

Итоги испытаний топ-моделей

Открытый вызов и динамика улучшений

Горячее

Возможности OpenCode + Ollama + Qwen3-Coder локально

Краткий курс по ComfyUI для новичков

Amazon раздаёт Kiro Pro+ стартапам, чтобы раскачать ИИ для кодинга

5 открытых ИИ-моделей для редактирования изображений

Топ-7 открытых моделей OCR

Сейчас в тренде