Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

ИИ-агенты уже ближе к задачам юристов

Бенчмарк Mercor выявил рост способностей ИИ-агентов в юридических задачах: модель Opus 4.6 от Anthropic достигла почти 30% в однократных тестах и 45% в среднем. CEO Mercor назвал такой прогресс за несколько месяцев невероятным. Юристы пока в безопасности, но расслабляться рано.

6 февраля 2026 г.
2 мин
29
Генеральный директор Mercor Брендан Фуди на TechCrunch Disrupt 2025.
Автор изображения: TechCrunch / Getty Images

Недавно вышла статья о новом бенчмарке от Mercor, который оценивает, как ИИ-агенты справляются с профессиональными заданиями вроде юридического анализа и корпоративных обзоров. Результаты тогда разочаровали: все ключевые лаборатории не дотянули и до 25%, поэтому юристы могли не опасаться конкуренции с машинами в ближайшее время.

Однако за пару недель способности ИИ шагнули далеко вперед.

Недавний выпуск Opus 4.6 встряхнул таблицы лидеров. Модель Anthropic показала чуть меньше 30% в однократных тестах и в среднем 45% при нескольких попытках. Релиз добавил свежие возможности для агентов, в том числе «рои агентов», что явно пошло на пользу при решении сложных многоэтапных задач.

Это серьезный прорыв по сравнению с прошлым максимумом и подтверждение, что развитие базовых моделей набирает обороты. Генеральный директор Mercor Брендан Фуди, пораженный таким прогрессом, заявил: «Прыжок с 18,4% до 29,8% за несколько месяцев — это безумие».

Таблица лидеров APEX-Agents
Таблица лидеров APEX-Agents

Тридцать процентов — это все равно далеко не сто, так что юристам не грозит замена роботами на будущей неделе. Зато теперь им стоит меньше уверовать в свою неуязвимость, чем месяц назад!