
Недавно вышла статья о новом бенчмарке от Mercor, который оценивает, как ИИ-агенты справляются с профессиональными заданиями вроде юридического анализа и корпоративных обзоров. Результаты тогда разочаровали: все ключевые лаборатории не дотянули и до 25%, поэтому юристы могли не опасаться конкуренции с машинами в ближайшее время.
Однако за пару недель способности ИИ шагнули далеко вперед.
Недавний выпуск Opus 4.6 встряхнул таблицы лидеров. Модель Anthropic показала чуть меньше 30% в однократных тестах и в среднем 45% при нескольких попытках. Релиз добавил свежие возможности для агентов, в том числе «рои агентов», что явно пошло на пользу при решении сложных многоэтапных задач.
Это серьезный прорыв по сравнению с прошлым максимумом и подтверждение, что развитие базовых моделей набирает обороты. Генеральный директор Mercor Брендан Фуди, пораженный таким прогрессом, заявил: «Прыжок с 18,4% до 29,8% за несколько месяцев — это безумие».

Тридцать процентов — это все равно далеко не сто, так что юристам не грозит замена роботами на будущей неделе. Зато теперь им стоит меньше уверовать в свою неуязвимость, чем месяц назад!