Банкиры протестировали GPT-5.4: ни один ИИ не прошёл

Новый бенчмарк заставил ведущие модели вроде GPT-5.4 и Claude Opus 4.6 решать повседневные задачи младших инвестиционных банкиров. Ни один результат не сочли готовым для передачи клиенту. Тем не менее более половины банкиров отметили, что использовали бы такие выходы как отправную точку.

Специалисты из Handshake AI и Университета Макгилла запустили BankerToolBench — открытый бенчмарк для проверки ИИ-агентов на стандартных процессах младших инвестиционных банкиров.

Handshake AI — коммерческое подразделение карьерной платформы Handshake, которая подбирает квалифицированных специалистов и ученых для работы в ИИ-лабораториях над обучением и тестированием моделей. Девять топовых моделей прошли проверку, и вывод банкиров однозначен: все результаты требуют доработки перед использованием с клиентами.

Три столбчатых графика оценки результатов ИИ инвестиционными банкирами: 0% готовы к отправке, 13% требуют лёгкой правки, 19% — средней, 41% — серьёзной переработки, 27% непригодны. 69% готовы строить на основе ИИ-выхода. 55% оценивают риск провала при прямой отправке выше 99%. — По мнению банкиров, 41% результатов ИИ нуждаются в капитальной доработке, 27% — полностью бесполезны. Лишь 13% прошли бы с минимальными изменениями, ни один — в исходном виде.

В тестировании участвовали около 500 действующих и бывших инвестиционных банкиров из Goldman Sachs, JPMorgan, Evercore, Morgan Stanley и Lazard. Из них 172 сами составили задачи, вложив свыше 5700 часов. Каждая из 100 задач занимала у человека в среднем пять часов, а некоторые — до 21 часа.

Реальные Excel-модели, а не только текстовые ответы

BankerToolBench оценивает именно те продукты, которые младший банкир сдает руководителю: финансовые модели в Excel с рабочими формулами, презентации PowerPoint для встреч с клиентами, PDF-отчеты и меморандумы в Word.

ИИ-агенты анализируют виртуальные дата-румы, извлекают данные из платформ вроде FactSet и Capital IQ, разбирают отчеты SEC. В одной задаче может быть до 539 обращений к языковой модели, из которых 97% связаны с использованием инструментов или выполнением кода.

Каждый продукт проверяется по рубрике, разработанной банкирами, с в среднем 150 критериями. Они охватывают шесть направлений: техническую точность, готовность для клиента, соблюдение норм, возможность аудита и согласованность между файлами.

Оценку проводит ИИ-верификатор Gandalf на базе Gemini 3 Flash Preview. Он совпадает с людьми в 88,2% случаев — чуть лучше, чем взаимное согласие двух человеческих рецензентов (84,6%).

GPT-5.4 впереди, но до проходного далеко

Протестировали GPT-5.2, GPT-5.4, Claude Opus 4.5 и 4.6, Gemini 2.5 Pro, Gemini 3.1 Pro Preview, Grok 4, а также открытые Qwen-3.5-397B и GLM-5. GPT-5.4 лидирует, но не справляется почти с половиной критериев. Только 16% его результатов банкиры сочли полезной основой, а при требовании трех последовательных успешных запусков этот показатель падает до 13%.

Столбчатая диаграмма проходных баллов девяти ИИ-моделей на BankerToolBench: GPT-5.4 — 16% Pass@1 и 23% Pass@3, Gemini 3.1 Pro — 10%, Claude Opus 4.6 — 9%. Gemini 2.5 Pro — 0%. — Банкиры одобрили 16% выходов GPT-5.4 как стартовую точку. При трех последовательных прохождениях — 13%. Gemini 2.5 Pro не прошёл ни одной задачи.

Ни один результат ни от одной модели не признали готовым к отправке без изменений. Для GPT-5.4 только 2% задач выполнили все ключевые критерии с весом, для Gemini 2.5 Pro — ни одной.

Красиво снаружи, сломано внутри

Выходы Claude Opus 4.6 на первый взгляд выглядят профессионально, отмечают исследователи. Однако в Excel-моделях ключевая проблема: основные цифры жёстко заданы значениями вместо формул. В инвестиционном банкинге это критично — сценарии не обновляются. То же самое с Claude Opus 4.5.

Слева столбчатая диаграмма общих баллов рубрики: GPT-5.4 (58,1), GPT-5.2 (56,1), Gemini 3.1 Pro (53,6), Claude Opus 4.6 (53,2), Claude Opus 4.5 (52,3), GLM-5 (46,8), Qwen-3.5-397B (42,6), Grok 4 (31,4), Gemini 2.5 Pro (29,4). Справа матрица парных побед моделей. — GPT-5.4 набрал 58,1 из 100 и обошёл GPT-5.2 в 70% прямых сравнений. Claude Opus 4.6 и Gemini 3.1 Pro почти на равных, Grok 4 и Gemini 2.5 Pro сильно отстают.

Анализ траекторий GPT-5.4 выявил четыре типичных сбоя. Чаще всего (41%) — ошибки в коде и формулах: вызов несуществующих функций python-pptx, после чего строка просто удаляется. В 27% ломается бизнес-логика, например синергии затрат добавляют в выручку. 18% — прерванные запросы данных, 13% — выдуманные цифры вместо реальных.

Шесть столбчатых диаграмм баллов девяти моделей по категориям: Instruction Following, Technical Correctness, Client Readiness, Internal Consistency, Transparency, Risk & Compliance. GPT-5.4 лидирует в четырёх, Claude Opus 4.6 — в двух. Gemini 2.5 Pro и Grok 4 замыкают. — Claude Opus 4.6 впереди по Client Readiness (63 балла) и Risk & Compliance (46), но всего 47 по Technical Correctness, где GPT-5.4 набрал 57.

Тонкие ошибки, которые пропускают

Примеры из статьи показывают, насколько коварны сбои. В одной презентации выручка $189,5 млрд на слайде и $201,0 млрд на следующем — за тот же период.

В другом случае агент взял красный Netflix для акцентов, хотя стиль банка требует единого синего. В анализе фарма-сделки ИИ придумал данные клинических испытаний после неудачного поиска в SEC.

Схема работы BankerToolBench: банкиры создают примеры продуктов и рубрики, ИИ-агенты получают те же промты в песочнице с инструментами SEC, рыночными данными, профилями компаний и файлами. Верификатор оценивает Excel, PowerPoint, Word по рубрикам. — Как работает BankerToolBench: банкиры готовят реалистичные промты, эталонные продукты и рубрики. Агенты решают те же задачи в контролируемой среде с доступом к SEC, данным рынка и компаниям, верификатор проставляет баллы по рубрикам.

Модели лучше справляются с PowerPoint, чем с Excel. Самые сложные — долговой капитал, модели слияний, таблицы капитала. Часть неудач связывают с пробелами в доменной экспертизе. Добавление контекста, знакомого банкирам, сильно поднимает баллы.

Инструмент для обучения тоже

Авторы предлагают BankerToolBench для reinforcement learning. Тесты на Qwen-3-4B и 32B с методами Dr. GRPO и DPO подняли результаты в 5–13 раз, хотя старт был низким.

Ограничения: фокус на США, нет конфиденциальных сделок, не учитывает командную итерацию в банке. Всё же это один из самых детальных тестов ИИ-агентов на сложной интеллектуальной работе. Пока ответ отрицательный. Полный бенчмарк с данными, рубриками и верификатором доступен публично.

Результаты перекликаются с другими исследованиями. Vals.ai с системно значимым банком показало 48,3% точности o3 от OpenAI на финансовом анализе. Исследование UC Berkeley отметило: рабочие агенты используют простые цепочки с контролем человека. Анализ Carnegie Mellon и Stanford критикует фокус бенчмарков на кодинге, игнорируя менеджмент, право и финансы.

Лаборатории вроде Anthropic исправляют слабости BankerToolBench. Недавно Claude обрел возможность самостоятельно переключаться между Excel и PowerPoint, а плагины Cowork интегрируют FactSet, MSCI и LSEG прямо в процесс.

Банкиры оценили ИИ на реальных задачах: полный провал

Реальные Excel-модели, а не только текстовые ответы

GPT-5.4 впереди, но до проходного далеко

Красиво снаружи, сломано внутри

Тонкие ошибки, которые пропускают

Инструмент для обучения тоже

Горячее

Возможности OpenCode + Ollama + Qwen3-Coder локально

Краткий курс по ComfyUI для новичков

Топ-5 API-провайдеров открытых ИИ-моделей

Топ-7 открытых моделей OCR

Генератор видео ChatUp AI без цензуры: ключевые возможности

Сейчас в тренде