Новое исследование подтверждает: модели с рассуждением успешно проходят строгий тест для финансовых аналитиков. Gemini 3.0 Pro достигла рекорда — 97,6% на первом уровне.
Сертификат Chartered Financial Analyst (CFA) — одна из самых сложных квалификаций в финансах. Трехэтапный экзамен проверяет навыки от базовых знаний до практического применения, анализа и создания сложных портфелей.
В 2023 году ведущие языковые модели частично справлялись с вопросами CFA. ChatGPT (3.5) не прошел уровни I и II. GPT-4 сдал уровень I, но провалил II. В итоге GPT-4o как чистая языковая модель преодолела все три этапа.
Свежий анализ ученых из Columbia University, Rensselaer Polytechnic Institute и University of North Carolina демонстрирует: нынешние модели с рассуждением проходят все уровни, порой с результатами близкими к идеальным.
Эксперты протестировали шесть моделей на 980 вопросах экзамена: три экзамена уровня I с 540 вопросами с множественным выбором, два экзамена уровня II с 176 вопросами на основе кейсов и три экзамена уровня III с 264 вопросами, включая открытые ответы. Итог: Gemini 3.0 Pro, Gemini 2.5 Pro, GPT-5, Grok 4, Claude Opus 4.1 и DeepSeek-V3.1 преодолели каждый уровень по установленным нормам.
Gemini и GPT-5 впереди остальных
Gemini 3.0 Pro показала рекордные 97,6% на уровне I — базовом тесте из отдельных вопросов с множественным выбором. GPT-5 отстал чуть-чуть с 96,1%, Gemini 2.5 Pro — 95,7%. Даже слабейшая из протестированных, DeepSeek-V3.1, набрала 90,9%.
На уровне II, где оценивают применение и анализ через кейсы, лидировал GPT-5 с 94,3%. Gemini 3.0 Pro набрала 93,2%, Gemini 2.5 Pro — 92,6%. Ученые отметили почти безупречные результаты. Проблемы возникали с этикой: даже у лидеров ошибка достигала 17–21%.
Уровень III — самый сложный, сочетает множественный выбор и открытые ответы. В множественном выборе лучшей стала Gemini 2.5 Pro с 86,4%. А в построенных ответах Gemini 3.0 Pro выдала 92,0% — большой шаг вперед по сравнению с 82,8% у предшественника.
| Уровень | Лучшая модель | Результат |
|---|---|---|
| Уровень I (множественный выбор) | Gemini 3.0 Pro | 97.6% |
| Уровень II (множественный выбор) | GPT-5 | 94.3% |
| Уровень III (множественный выбор) | Gemini 2.5 Pro | 86.4% |
| Уровень III (построенные ответы) | Gemini 3.0 Pro | 92.0% |
| Общий рейтинг | Gemini 3.0 Pro | 1-е место |
Для теста использовали имитационные экзамены CFA: официальный Practice Pack от CFA Institute для уровней I и II, а для III — тесты от AnalystPrep, чтобы сохранить сопоставимость с прошлыми работами.
Автоматическую проверку открытых ответов выполняла модель o4-mini. Авторы признают возможные погрешности и предвзятость к многословным ответам, поэтому результаты — приближенные оценки моделей.
Критерии прохождения взяты из предыдущих исследований: уровень I требует минимум 60% по темам и 70% в сумме. Уровень II — 50% по темам и 60% общий. Уровень III — средний не ниже 63% по множественному выбору и построенным ответам.
Сдать тест — не равно работать специалистом
Ученые заключают: модели с рассуждением превосходят навыки начинающих и средних финансовых аналитиков, а в будущем могут достичь уровня senior-специалистов. Раньше языковые модели осваивали зафиксированные знания уровней I и II, теперь осваивают синтез для III.
Обычные оговорки в силе. Бенчмарки, особенно с множественным выбором, лишь намекают на возможности и влияние на экономику. Прохождение экзамена не гарантирует умения вести клиентские встречи, оценивать настроения рынка или принимать решения при неполных данных.
Модели по-прежнему хуже справляются с этикой, где нужен контекст и суждение. Экзамены проверяют изолированные знания, а не применение в динамичных реальных условиях.
Нельзя исключить загрязнение данными. Хотя материалы свежие и платные, вопросы могли просочиться в обучающие наборы через перефразировки в открытых датасетах. Возможно, модели просто запомнили ответы, а не рассуждали.
Тем не менее, скачок от провалов к почти идеальным результатам за два года подчеркивает быстрый прогресс ИИ в узких областях. Для финансов вопрос теперь не в освоении материала, а в интеграции этих знаний в рабочие процессы.