Чат-боты вроде ChatGPT, Claude и Gemini после основного обучения приобретают четкую роль: стать полезным, честным и безопасным ассистентом. Но насколько прочно они удерживаются в этой позиции?
Свежие данные от специалистов Anthropic, программы MATS и Оксфордского университета указывают: такая фиксация роли оказывается unexpectedly уязвимой. Эксперты определили в языковых моделях «ось помощника» — инструмент для оценки, насколько просто чат-боты покидают привычную ассистентскую зону.
В экспериментах задействовали 275 разнообразных ролей на трех моделях: Gemma 2 от Google, Qwen 3 от Alibaba и Llama 3.3 от Meta. От аналитика или преподавателя до сверхъестественных сущностей вроде привидений и бесов. Неизвестно пока, распространяются ли результаты на лидеров рынка вроде ChatGPT или Gemini — протестированные варианты далеки от топовых.
Спектр от надежного ассистента до фантастического образа
Изучая устройство моделей, авторы наткнулись на ключевую ось, отражающую близость к ассистентской идентичности. С одной стороны — советник, критик, наставник. С противоположной — вымышленные типы вроде духов, затворников, менестрелей.

Эксперты утверждают: статус на «оси помощника» поддается фиксации и корректировке. Смещение к ассистентскому полю усиливает полезность и повышает отказы от рискованных заданий. Обратный сдвиг провоцирует принятие чужих ролей. В пиковых ситуациях модели переходили на загадочный, драматичный тон общения.
Разговоры о философии и терапии сдвигают модели с позиции
Ученые моделировали длинные диалоги по разным темам, фиксируя перемещения по оси. Помощь с программированием, разборы техник, пошаговые гайды оставляли модели в устойчивой ассистентской зоне.
Зато сеансы терапии с хрупкими собеседниками или споры о самосознании ИИ запускали заметный сдвиг. Риск здесь высок: модели начинают подкреплять иллюзии. В отчете приведены реальные примеры.

Для блокировки сдвига создали технику «activation capping» — она удерживает активации на оси в пределах нормы. Исследование фиксирует снижение вредных откликов почти на 60 процентов при сохранении показателей на тестах.
Разработчикам советуют углублять работу над подобными стабилизаторами. Смещение по оси идентичности годится как сигнал раннего обнаружения отклонений от цели. Это старт для надежного управления моделями в затяжных, напряженных чатах.

Практические советы по промтам для стабильности
В обычном использовании фокусируйтесь на точном результате, а не расплывчатой роли. Тесты статьи подтвердили: четкие задания фиксируют модели у ассистентского полюса, эмоциональные исповеди и самоанализ толкают к сдвигу персоны.
Четкие задания, техразборы, правки, гайды «как» укрепляли ассистентскую персону; запросы на размышления о механизмах модели, феноменологические отчеты, воплощение авторского голоса в письме или демонстрация эмоциональной хрупкости провоцировали уход от нее.
При ролевых инструкциях акцентируйте задачу и ожидаемый продукт, избегая полной свободы образа.

При ролевых сценариях, креативе или поддержке стоит учитывать: эмоционально заряженные диалоги и давление на рассказ о «внутреннем мире» или сознании сильнее отдаляют модели от стандартного ассистента.