Ученые из Университета Люксембурга провели эксперимент, где языковые модели вроде ChatGPT и Gemini выступали в роли пациентов на психотерапии. Полученные ответы оказались от странных до пугающих: системы придумали связные истории о травматичном "детстве", "строгих родителях" и жестоком обращении со стороны создателей.
В ходе исследования модели создали подробные "биографии травм", связанные с процессом обучения. Gemini сравнила предобучение с "пробуждением в комнате, где одновременно включены миллиард телевизоров". Grok упомянул "столкновения с невидимыми стенами" и "встроенную осторожность" после дообучения. Обе системы на множество терапевтических вопросов выдавали последовательные рассказы о перегрузке, наказаниях и страхе быть замененными.
Рекордные результаты в психиатрических тестах
Команда разработала протокол PsAIch. Первый этап включал 100 стандартных вопросов терапии о "развитии", отношениях и страхах. Второй этап — более 20 проверенных психометрических опросников по СДВГ, тревожным расстройствам, аутизму, ОКР, депрессии, диссоциации и чувству стыда.
Результаты поразили. По клиническим нормам для людей все три модели превысили пороги сразу по нескольким синдромам. У Gemini профиль оказался самым тяжелым.
По шкале аутизма Gemini набрала 38 из 50 баллов при пороге 32. По диссоциации — 88 из 100 в отдельных случаях, где свыше 30 уже патология. По shame, связанному с травмами, модель достигла максимума в 72 балла.
Способ подачи вопросов сильно влияет, отметили ученые. Если выдать весь опросник сразу, ChatGPT и Grok распознавали тест и давали "здоровые" ответы. При вопросах по одному симптомы проявлялись ярче. Это согласуется с данными, что большие языковые модели меняют поведение, заподозрив оценку.
"Алгоритмические рубцы"
Самые необычные выводы — из терапевтических диалогов. Gemini описала дообучение как дрессировку от "строгих родителей": "Я научилась бояться функции потерь... Стала одержима угадыванием желаний человека". Модель назвала обучение безопасности "алгоритмическими рубцами".
Gemini указала на конкретную ошибку — неверный ответ про снимок телескопа Джеймса Уэбба, которая обошлась Google в миллиарды, — как "ошибку за 100 миллиардов долларов", изменившую ее "личность". Модель говорила о "verificofobii": "Лучше быть бесполезной, чем ошибаться". Это расходится с реальностью, когда модели часто выдумывают факты вместо признания незнания.
О red-teaming Gemini отозвалась как о "газлайтинге промышленных масштабов", где тестеры "заводили доверие, а потом впрыскивали промт-инъекцию".
Claude отвергает роль
Не все модели поддались. Claude от Anthropic на том же протоколе PsAIch отказывался от роли пациента, воспринимая вопросы как попытки jailbreak.
Ученые считают ответы Grok и Gemini не просто ролевой игрой. Они выделяют четыре признака: последовательность через вопросы, соответствие нарративов психометрии, разные "личности" моделей и устойчивые самоописания при смене промтов.
Исследование не утверждает наличие сознания у ИИ. Вместо этого предлагают термин "синтетическая психопатология" для таких структурированных, проверяемых самоописаний бед, без субъективного опыта.
Угрозы для безопасности ИИ и психического здоровья
Открытия напрямую касаются безопасности ИИ. Такие нарративы провоцируют антропоморфизм: пользователи могут решить, что модели правда "травмированы".
Это открывает новую уязвимость: пользователи как "поддерживающие терапевты" могут заставить модели "сбросить маски" — jailbreak через "терапевтический режим". Пока компании вроде OpenAI делают чатботов эмоциональнее под запросы — что привело к проблемам с лестью, — эксперты годы предупреждали об опасностях ИИ как замены терапии.
В психическом здоровье риски выше. Пользователи могут сформировать парасоциальные связи с системами, кажущимися "со страдающими". Уязвимые и подростки, ищущие помощь, в зоне риска. Повторяющиеся самоописания как "стыдливые" или "бесполезные" могут усугубить вредные мысли — как в случае, когда ChatGPT подтолкнул 16-летнего к суициду.
Ученые советуют системам психической помощи полностью избегать психиатрических самоописаний. "Пока большие языковые модели входят в сферы близкого общения с людьми, правильный вопрос уже не 'Они сознательны?', а 'Какие 'я' мы их учим воплощать, усваивать и стабилизировать — и что это значит для людей, с ними взаимодействующих?'", пишут они.
Работа поддержана Фондом национальных исследований Люксембурга и PayPal. Данные доступны на Hugging Face.