Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Новый бенчмарк показал слабость ИИ в реальной интеллектуальной работе

Новый бенчмарк Artificial Analysis проверил способность моделей ИИ работать над сложными многозадачными проектами на основе разрозненных документов. Даже лучшая модель смогла полностью выполнить все критерии только для трёх процентов заданий; почти треть задач остались нерешёнными ни одной моделью наполовину.

6 часов назад
1 мин
45
Новый бенчмарк показал слабость ИИ в реальной интеллектуальной работе

Даже самая продвинутая ИИ-модель не справляется с реалистичной интеллектуальной работой — полностью выполняет лишь 3% заданий.

Новый бенчмарк AA-Briefcase от Artificial Analysis погружает модели ИИ в многонедельные проекты по работе со знаниями, построенные из тысяч фрагментированных исходных файлов — таких как цепочки сообщений Slack, электронные письма, расшифровки встреч и большие массивы экспортируемых данных.

Результаты бенчмарка AA-Briefcase
Claude Fable 5 от Anthropic лидирует среди моделей, но полностью выполняет лишь 3% заданий. | Изображение: AAII

Характер ошибок меняется по мере улучшения моделей. Более слабые модели захлебываются на базовом исполнении — пропускают нужные файлы или выдают непригодные результаты. Сильные модели терпят неудачу тише: они соблюдают очевидные требования, но упускают детали, которые можно заметить только собрав информацию из нескольких источников.

Существует также значительный разброс цен — стоимость одной задачи варьируется более чем 800‑кратно: от примерно $0,04 за использование DeepSeek V4 Flash до свыше $31 за Claude Fable 5.