Модели ИИ покоряют экзамены CFA всех уровней

Современные модели ИИ с рассуждением, такие как Gemini 3.0 Pro и GPT-5, успешно прошли все три уровня экзамена CFA с высокими баллами, близкими к идеальным. Исследование на 980 вопросах показывает их превосходство над навыками junior- и mid-level аналитиков. Однако сдача теста не равна реальной работе в финансах.

Новое исследование подтверждает: модели с рассуждением успешно проходят строгий тест для финансовых аналитиков. Gemini 3.0 Pro достигла рекорда — 97,6% на первом уровне.

Сертификат Chartered Financial Analyst (CFA) — одна из самых сложных квалификаций в финансах. Трехэтапный экзамен проверяет навыки от базовых знаний до практического применения, анализа и создания сложных портфелей.

В 2023 году ведущие языковые модели частично справлялись с вопросами CFA. ChatGPT (3.5) не прошел уровни I и II. GPT-4 сдал уровень I, но провалил II. В итоге GPT-4o как чистая языковая модель преодолела все три этапа.

Свежий анализ ученых из Columbia University, Rensselaer Polytechnic Institute и University of North Carolina демонстрирует: нынешние модели с рассуждением проходят все уровни, порой с результатами близкими к идеальным.

Эксперты протестировали шесть моделей на 980 вопросах экзамена: три экзамена уровня I с 540 вопросами с множественным выбором, два экзамена уровня II с 176 вопросами на основе кейсов и три экзамена уровня III с 264 вопросами, включая открытые ответы. Итог: Gemini 3.0 Pro, Gemini 2.5 Pro, GPT-5, Grok 4, Claude Opus 4.1 и DeepSeek-V3.1 преодолели каждый уровень по установленным нормам.

Gemini и GPT-5 впереди остальных

Gemini 3.0 Pro показала рекордные 97,6% на уровне I — базовом тесте из отдельных вопросов с множественным выбором. GPT-5 отстал чуть-чуть с 96,1%, Gemini 2.5 Pro — 95,7%. Даже слабейшая из протестированных, DeepSeek-V3.1, набрала 90,9%.

На уровне II, где оценивают применение и анализ через кейсы, лидировал GPT-5 с 94,3%. Gemini 3.0 Pro набрала 93,2%, Gemini 2.5 Pro — 92,6%. Ученые отметили почти безупречные результаты. Проблемы возникали с этикой: даже у лидеров ошибка достигала 17–21%.

Уровень III — самый сложный, сочетает множественный выбор и открытые ответы. В множественном выборе лучшей стала Gemini 2.5 Pro с 86,4%. А в построенных ответах Gemini 3.0 Pro выдала 92,0% — большой шаг вперед по сравнению с 82,8% у предшественника.

Уровень	Лучшая модель	Результат
Уровень I (множественный выбор)	Gemini 3.0 Pro	97.6%
Уровень II (множественный выбор)	GPT-5	94.3%
Уровень III (множественный выбор)	Gemini 2.5 Pro	86.4%
Уровень III (построенные ответы)	Gemini 3.0 Pro	92.0%
Общий рейтинг	Gemini 3.0 Pro	1-е место

Для теста использовали имитационные экзамены CFA: официальный Practice Pack от CFA Institute для уровней I и II, а для III — тесты от AnalystPrep, чтобы сохранить сопоставимость с прошлыми работами.

Автоматическую проверку открытых ответов выполняла модель o4-mini. Авторы признают возможные погрешности и предвзятость к многословным ответам, поэтому результаты — приближенные оценки моделей.

Критерии прохождения взяты из предыдущих исследований: уровень I требует минимум 60% по темам и 70% в сумме. Уровень II — 50% по темам и 60% общий. Уровень III — средний не ниже 63% по множественному выбору и построенным ответам.

Сдать тест — не равно работать специалистом

Ученые заключают: модели с рассуждением превосходят навыки начинающих и средних финансовых аналитиков, а в будущем могут достичь уровня senior-специалистов. Раньше языковые модели осваивали зафиксированные знания уровней I и II, теперь осваивают синтез для III.

Обычные оговорки в силе. Бенчмарки, особенно с множественным выбором, лишь намекают на возможности и влияние на экономику. Прохождение экзамена не гарантирует умения вести клиентские встречи, оценивать настроения рынка или принимать решения при неполных данных.

Модели по-прежнему хуже справляются с этикой, где нужен контекст и суждение. Экзамены проверяют изолированные знания, а не применение в динамичных реальных условиях.

Нельзя исключить загрязнение данными. Хотя материалы свежие и платные, вопросы могли просочиться в обучающие наборы через перефразировки в открытых датасетах. Возможно, модели просто запомнили ответы, а не рассуждали.

Тем не менее, скачок от провалов к почти идеальным результатам за два года подчеркивает быстрый прогресс ИИ в узких областях. Для финансов вопрос теперь не в освоении материала, а в интеграции этих знаний в рабочие процессы.

ИИ сдал все три уровня экзамена CFA

Gemini и GPT-5 впереди остальных

Сдать тест — не равно работать специалистом

Горячее

Anthropic открыла офис в Сеуле и новые партнерства в Корее

Seedance 2.5 от ByteDance: ИИ-видео до 30 секунд без склеек

Adobe добавила ИИ-агентов в Photoshop Premiere

Как быстро запустить дата-центр? Дайте ему гибкость в энергопотреблении

Личный ИИ-ассистент на Python: опыт создания с GPT-4o

Сейчас в тренде