Почему ИИ пока не меняет офисные профессии
Прошло почти два года с момента, когда CEO Microsoft Сатья Наделла предсказал замену интеллектуального труда ИИ — работы юристов, инвестиционных банкиров, библиотекарей, бухгалтеров, IT-специалистов и подобных специалистов.
Базовые модели добились значительного прогресса, однако изменения в офисной сфере наступают неспешно. ИИ уверенно проводит глубокие исследования и планирует действия агентов, но большая часть такой деятельности по-прежнему выполняется людьми.
Эта загадка ИИ-разработки наконец-то получает разъяснения благодаря свежему исследованию от Mercor — компании-лидера в подготовке обучающих данных.
Авторы оценили способности ведущих ИИ-моделей к решению настоящих офисных задач из сфер консалтинга, инвестиционного банкинга и юриспруденции. Итог — бенчмарк APEX-Agents. Пока все ИИ-лаборатории проваливают его: на вопросы реальных профессионалов даже сильнейшие модели дают верные ответы меньше чем в четверти случаев. В большинстве ситуаций следует неверный результат или молчание вовсе.
CEO Mercor Брендан Фуди, соавтор исследования, выделяет ключевую слабость моделей — умение собирать данные из разных источников, что лежит в основе типичной человеческой офисной рутины.
"Мы сконструировали полную рабочую среду по образцу реальных профессиональных сервисов", — поделился Фуди с TechCrunch. "На практике информация разбросана по Slack, Google Drive и прочим сервисам, а не свалена в одном месте от одного человека". Для агентских ИИ подобное мышление в нескольких доменах остается нестабильным.

Задачи составили эксперты маркетплейса Mercor — они же задали стандарты удачных ответов. Вопросы выложены открыто на Hugging Face и демонстрируют высокую сложность сценариев.
Пример из раздела "Право":
В первые 48 минут сбоя производства в ЕС инженеры Northstar передали американскому аналитическому поставщику один или два пакета логов событий производства ЕС с персональными данными... По внутренним правилам Northstar такие один-два экспорта логов укладываются в статью 49?
Верный ответ — да, однако путь к нему лежит через тщательный разбор корпоративных политик и норм ЕС по защите данных.
Задача способна поставить в тупик даже знающего человека, но цель — отразить будни профессионалов. Надежное решение подобных вопросов ИИ-моделью сделает ненужными многих сегодняшних юристов. "Это главная экономическая тема", — подчеркнул Фуди в беседе с TechCrunch. "Тест точно передает суть их повседневных дел".
OpenAI уже измерял профнавыки через свой GDPval, но APEX-Agents выделяется. В отличие от общего охвата профессий в GDPval, этот бенчмарк проверяет устойчивость работы в избранных высокоценных областях. Тест тяжелее для моделей, зато точнее показывает возможность автоматизации этих ролей.
Итоги испытаний топ-моделей
Никто из участников не дотянул до уровня банкира, однако разрыв сокращается. Лидер — Gemini 3 Flash с 24% точностью в однократном прохождении, следом GPT-5.2 на 23%. Opus 4.5, Gemini 3 Pro и GPT-5 держатся около 18%.
Открытый вызов и динамика улучшений
Начальные показатели скромны, но ИИ-сфера привыкла перешагивать через трудные бенчмарки. Публикация APEX-Agents превращает его в вызов для лабораторий — Фуди уверен в скорых прорывах.
"Улучшения идут семимильными шагами", — отметил он для TechCrunch. "Сегодня это стажер с успехом в четверти заданий, год назад — с 5-10%. Такой темп год за годом творит чудеса".