В Anthropic возникла необычная ситуация: команда по подбору кадров вынуждена разрабатывать новые домашние задания, поскольку собственные модели ИИ компании опережают кандидатов-людей.
Тристан Хьюм, руководитель команды по оптимизации производительности в Anthropic, в блоге отметил, что тест для инженеров по производительности пришлось обновлять уже трижды. Объяснение простое: свежие версии Claude каждый раз обесценивали старые варианты задания.
Исходный тест прошли свыше тысячи кандидатов с начала 2024 года. Он построен на симуляторе вымышленного чипа, написанном на Python. Участникам дают готовую программу, которую нужно переработать для повышения скорости. Результат оценивают по clock cycles — количеству шагов, необходимых симулируемому компьютеру для выполнения задачи. Чем меньше шагов, тем эффективнее решение.
Хьюм создал задание, близкое к повседневным задачам в компании. Кандидатам разрешено применять ИИ-инструменты, как и в реальной работе. Многие из них самостоятельно превысили четырехчасовой лимит, увлекшись процессом. Десятки инженеров, отобранных таким образом, сейчас трудятся над инфраструктурой Anthropic.
Каждое обновление Claude требовало перестройки теста
Проблемы накапливались постепенно. С выходом Claude 3.7 Sonnet выяснилось: более половины участников набрали бы лучшие баллы, просто передав задачу модели вместо самостоятельного кодирования.
К маю 2025 года Claude Opus 4 обошел почти все человеческие варианты в пределах времени. Хьюм внес правки в тест и уменьшил лимит до двух часов.
Далее появился Claude Opus 4.5. Эта модель достигла показателей топовых кандидатов-людей за два часа. Без ограничений по времени люди по-прежнему опережают Opus 4.5 — порой с большим отрывом, — однако в рамках реалистичных сроков домашнего задания это уже невозможно.
Запрет ИИ-инструментов не покажет реальную картину работы
Хьюм размышлял о запрете ИИ в тесте, но отверг эту идею. Такой подход не соответствовал бы действительности. Инженеры в компании активно пользуются ИИ-помощниками. Задание должно проверять умение эффективно взаимодействовать с ними, а не обходиться без них.
В итоге пришлось полностью изменить концепцию. Хьюм вдохновился играми разработчика Zachtronics, где программирование идет в экзотических средах с жесткими ограничениями. Игроки ограничены минимумом команд и памятью, что стимулирует нестандартные подходы.
Новый тест ввел аналогичные необычные рамки. Claude с ними не справляется — подобные сценарии почти отсутствуют в его обучающих данных.
"Реализм, возможно, стал роскошью, недоступной нам сегодня", — пишет Хьюм. Предыдущий тест срабатывал, имитируя типичную работу. Актуальный вариант эффективен, поскольку моделирует совершенно новые задачи, незнакомые как людям, так и ИИ.
Anthropic выложила исходный тест на GitHub. При неограниченном времени люди сохраняют преимущество. Рекордное решение от человека значительно превосходит лучшее достижение Claude. Те, кто предложит вариант эффективнее модели, могут сразу подавать заявку в Anthropic. Всем остальным предстоит пройти стандартную процедуру с новым заданием.