Бенчмарк AA-Briefcase выявил слабость ИИ в реальных задачах

Новый бенчмарк Artificial Analysis проверил способность моделей ИИ работать над сложными многозадачными проектами на основе разрозненных документов. Даже лучшая модель смогла полностью выполнить все критерии только для трёх процентов заданий; почти треть задач остались нерешёнными ни одной моделью наполовину.

Даже самая продвинутая ИИ-модель не справляется с реалистичной интеллектуальной работой — полностью выполняет лишь 3% заданий.

Новый бенчмарк AA-Briefcase от Artificial Analysis погружает модели ИИ в многонедельные проекты по работе со знаниями, построенные из тысяч фрагментированных исходных файлов — таких как цепочки сообщений Slack, электронные письма, расшифровки встреч и большие массивы экспортируемых данных.

Результаты бенчмарка AA-Briefcase — Claude Fable 5 от Anthropic лидирует среди моделей, но полностью выполняет лишь 3% заданий. | Изображение: AAII

Характер ошибок меняется по мере улучшения моделей. Более слабые модели захлебываются на базовом исполнении — пропускают нужные файлы или выдают непригодные результаты. Сильные модели терпят неудачу тише: они соблюдают очевидные требования, но упускают детали, которые можно заметить только собрав информацию из нескольких источников.

Существует также значительный разброс цен — стоимость одной задачи варьируется более чем 800‑кратно: от примерно $0,04 за использование DeepSeek V4 Flash до свыше $31 за Claude Fable 5.

Новый бенчмарк показал слабость ИИ в реальной интеллектуальной работе

Горячее

Как подключить локальные модели к Claude Code в 2026 году

Gemini-SQL2 от Google стала лидером BIRD с 80% точности

Anthropic открыла офис в Сеуле и новые партнерства в Корее

Личный ИИ-ассистент на Python: опыт создания с GPT-4o

Новый бенчмарк показал слабость ИИ в реальной интеллектуальной работе

Сейчас в тренде