
С 2024 года команда по оптимизации производительности в Anthropic предлагает кандидатам на работу задание на дом. Оно помогает убедиться, что соискатели действительно разбираются в теме. Однако инструменты ИИ для написания кода стали такими мощными, что тест пришлось неоднократно переделывать. Иначе кандидаты просто подставляют готовые ответы от Claude.
Руководитель команды Тристан Хьюм рассказал об эволюции этого задания в своем блоге. "Каждый свежий релиз Claude вынуждает нас заново проектировать тест", — отмечает он. "С тем же ограничением по времени Claude Opus 4 обошел по результатам почти всех человеческих кандидатов. Мы все еще могли отобрать самых сильных. Но дальше Claude Opus 4.5 сравнялся даже с ними".
На тесте разрешено применять ИИ-инструменты, однако это создает реальную проблему с оценкой соискателей. Когда люди перестают превосходить результаты модели, задание перестает работать. Оно начинает проверять не навыки кандидата, а просто то, какой ИИ он выбрал.
"В условиях домашнего задания у нас больше не оставалось способов разграничить результаты ведущих кандидатов и нашей передовой модели", — подчеркивает Хьюм.
Использование ИИ на экзаменах уже сеет хаос в учебных заведениях по всему миру. Забавно, что лабораториям по ИИ тоже приходится решать похожие задачи. Впрочем, Anthropic особенно подготовлен к таким вызовам. В итоге Хьюм придумал обновленный тест. Он меньше фокусируется на оптимизации железа и получился достаточно необычным, чтобы современные ИИ с ним не справились.
Кроме того, в посте он выложил исходный вариант задания. Читатели могут попробовать его улучшить.
"Если сумеете обойти Opus 4.5, — будем рады услышать от вас", — говорится в публикации.