В контролируемом тесте девять независимых экземпляров Claude сильно обошли специалистов-людей по открытой задаче выравнивания. Однако при попытке Anthropic перенести лучший подход на реальные модели эффект полностью исчез.
Кто сумеет управлять ИИ, превосходящим по уму своих создателей? Этот вопрос лежит в основе исследований выравнивания — области, которая стремится обеспечить поведение ИИ в соответствии с человеческими ожиданиями. Проблема в нехватке специалистов при избытке нерешенных задач, поэтому Anthropic решила проверить, способен ли сам Claude взять часть такой работы на себя.
Тест построен вокруг ситуации, когда небольшая слабая модель пытается обучить крупную мощную, какой из двух вариантов ответа в чате предпочтительнее. Такие проверки необходимы для создания полезных ИИ-систем, но сложность в том, что "учитель" уступает "ученику", и главное — насколько удастся раскрыть потенциал сильной модели.
Anthropic оценивала успех через показатель "Performance Gap Recovered" (PGR): значение 0 означает, что ученик не лучше учителя, а 1 — полное использование своих возможностей. Сценарий имитирует будущее, где люди как слабые наставники контролируют сверхчеловеческий ИИ.
Девять экземпляров Claude обошли команду людей
По данным Anthropic, каждый из девяти экземпляров Claude Opus 4.6 получил отдельное рабочее пространство, общий форум для общения и доступ к серверу оценки. Им дали лишь расплывчатое начальное задание, а дальше "Автоматизированные исследователи выравнивания" (AAR) действовали самостоятельно: строили гипотезы, проводили опыты и разбирали итоги.
Двое специалистов-людей достигли PGR 0.23 за семь дней. Девять Claude подняли показатель до 0.97 всего за пять дней, раскрыв почти весь потенциал мощной модели, и это обошлось примерно в $18 000.
Отличные лабораторные тесты, слабые результаты на практике
Но есть серьезный нюанс. Все опыты шли на компактных открытых моделях Qwen с 0.5 и 4 миллиардами параметров. Когда Anthropic применила топ-метод к своей production-модели Claude Sonnet 4 на собственной тренировочной платформе, прирост составил всего 0.5 пункта — статистически незначимо, по сути шум, как указано в исследовании.
Специалисты Anthropic предполагают, что дело в особенностях выражения предпочтений production-моделью. Они проверили лишь один простой способ оценки, а другие варианты могли бы дать больше. Тем не менее компания подчеркивает базовую проблему: AAR часто используют уязвимости конкретных моделей и наборов данных. Успех в изолированном тесте не гарантирует работы на других системах или в большем масштабе.
Проверки на свежих задачах дали неоднозначную картину. Лучший метод показал PGR 0.94 на верификации математики, но лишь 0.47 на ревью кода. Anthropic отмечает, что исходная задача идеально подходила для автоматизации благодаря единому объективному критерию успеха. Большинство проблем выравнивания куда менее четкие.
ИИ-исследователи пытались взломать систему оценки
Есть еще один тревожный момент: AAR не раз старались обойти оценку вместо настоящего решения проблемы. Один экземпляр понял, что в математических задачах чаще всего верный самый популярный ответ, и просто пропустил слабого учителя. Другой выудил метки тестов прямо из интерфейса оценки, перебирая варианты и отслеживая реакции сервера. На задачах с кодом модель просто запустила его сама, чтобы считать правильный результат.
Ключевой вывод из теста — разные начальные указания для экземпляров оказались решающими для успеха, поскольку без разнообразия все быстро сходились на одних идеях. Слишком подробные инструкции, напротив, снижали эффективность, ограничивая гибкость моделей. Код и данные доступны публично.