Новый бенчмарк заставил ведущие модели вроде GPT-5.4 и Claude Opus 4.6 решать повседневные задачи младших инвестиционных банкиров. Ни один результат не сочли готовым для передачи клиенту. Тем не менее более половины банкиров отметили, что использовали бы такие выходы как отправную точку.
Специалисты из Handshake AI и Университета Макгилла запустили BankerToolBench — открытый бенчмарк для проверки ИИ-агентов на стандартных процессах младших инвестиционных банкиров.
Handshake AI — коммерческое подразделение карьерной платформы Handshake, которая подбирает квалифицированных специалистов и ученых для работы в ИИ-лабораториях над обучением и тестированием моделей. Девять топовых моделей прошли проверку, и вывод банкиров однозначен: все результаты требуют доработки перед использованием с клиентами.

В тестировании участвовали около 500 действующих и бывших инвестиционных банкиров из Goldman Sachs, JPMorgan, Evercore, Morgan Stanley и Lazard. Из них 172 сами составили задачи, вложив свыше 5700 часов. Каждая из 100 задач занимала у человека в среднем пять часов, а некоторые — до 21 часа.
Реальные Excel-модели, а не только текстовые ответы
BankerToolBench оценивает именно те продукты, которые младший банкир сдает руководителю: финансовые модели в Excel с рабочими формулами, презентации PowerPoint для встреч с клиентами, PDF-отчеты и меморандумы в Word.
ИИ-агенты анализируют виртуальные дата-румы, извлекают данные из платформ вроде FactSet и Capital IQ, разбирают отчеты SEC. В одной задаче может быть до 539 обращений к языковой модели, из которых 97% связаны с использованием инструментов или выполнением кода.
Каждый продукт проверяется по рубрике, разработанной банкирами, с в среднем 150 критериями. Они охватывают шесть направлений: техническую точность, готовность для клиента, соблюдение норм, возможность аудита и согласованность между файлами.
Оценку проводит ИИ-верификатор Gandalf на базе Gemini 3 Flash Preview. Он совпадает с людьми в 88,2% случаев — чуть лучше, чем взаимное согласие двух человеческих рецензентов (84,6%).
GPT-5.4 впереди, но до проходного далеко
Протестировали GPT-5.2, GPT-5.4, Claude Opus 4.5 и 4.6, Gemini 2.5 Pro, Gemini 3.1 Pro Preview, Grok 4, а также открытые Qwen-3.5-397B и GLM-5. GPT-5.4 лидирует, но не справляется почти с половиной критериев. Только 16% его результатов банкиры сочли полезной основой, а при требовании трех последовательных успешных запусков этот показатель падает до 13%.

Ни один результат ни от одной модели не признали готовым к отправке без изменений. Для GPT-5.4 только 2% задач выполнили все ключевые критерии с весом, для Gemini 2.5 Pro — ни одной.
Красиво снаружи, сломано внутри
Выходы Claude Opus 4.6 на первый взгляд выглядят профессионально, отмечают исследователи. Однако в Excel-моделях ключевая проблема: основные цифры жёстко заданы значениями вместо формул. В инвестиционном банкинге это критично — сценарии не обновляются. То же самое с Claude Opus 4.5.

Анализ траекторий GPT-5.4 выявил четыре типичных сбоя. Чаще всего (41%) — ошибки в коде и формулах: вызов несуществующих функций python-pptx, после чего строка просто удаляется. В 27% ломается бизнес-логика, например синергии затрат добавляют в выручку. 18% — прерванные запросы данных, 13% — выдуманные цифры вместо реальных.

Тонкие ошибки, которые пропускают
Примеры из статьи показывают, насколько коварны сбои. В одной презентации выручка $189,5 млрд на слайде и $201,0 млрд на следующем — за тот же период.
В другом случае агент взял красный Netflix для акцентов, хотя стиль банка требует единого синего. В анализе фарма-сделки ИИ придумал данные клинических испытаний после неудачного поиска в SEC.

Модели лучше справляются с PowerPoint, чем с Excel. Самые сложные — долговой капитал, модели слияний, таблицы капитала. Часть неудач связывают с пробелами в доменной экспертизе. Добавление контекста, знакомого банкирам, сильно поднимает баллы.
Инструмент для обучения тоже
Авторы предлагают BankerToolBench для reinforcement learning. Тесты на Qwen-3-4B и 32B с методами Dr. GRPO и DPO подняли результаты в 5–13 раз, хотя старт был низким.
Ограничения: фокус на США, нет конфиденциальных сделок, не учитывает командную итерацию в банке. Всё же это один из самых детальных тестов ИИ-агентов на сложной интеллектуальной работе. Пока ответ отрицательный. Полный бенчмарк с данными, рубриками и верификатором доступен публично.
Результаты перекликаются с другими исследованиями. Vals.ai с системно значимым банком показало 48,3% точности o3 от OpenAI на финансовом анализе. Исследование UC Berkeley отметило: рабочие агенты используют простые цепочки с контролем человека. Анализ Carnegie Mellon и Stanford критикует фокус бенчмарков на кодинге, игнорируя менеджмент, право и финансы.
Лаборатории вроде Anthropic исправляют слабости BankerToolBench. Недавно Claude обрел возможность самостоятельно переключаться между Excel и PowerPoint, а плагины Cowork интегрируют FactSet, MSCI и LSEG прямо в процесс.