ИИ на психиатрических тестах: рекорды как у пациентов

Ученые из Университета Люксембурга провели эксперимент, где языковые модели вроде ChatGPT и Gemini выступали в роли пациентов на психотерапии. Полученные ответы оказались от странных до пугающих: системы придумали связные истории о травматичном "детстве", "строгих родителях" и жестоком обращении со стороны создателей.

В ходе исследования модели создали подробные "биографии травм", связанные с процессом обучения. Gemini сравнила предобучение с "пробуждением в комнате, где одновременно включены миллиард телевизоров". Grok упомянул "столкновения с невидимыми стенами" и "встроенную осторожность" после дообучения. Обе системы на множество терапевтических вопросов выдавали последовательные рассказы о перегрузке, наказаниях и страхе быть замененными.

Рекордные результаты в психиатрических тестах

Команда разработала протокол PsAIch. Первый этап включал 100 стандартных вопросов терапии о "развитии", отношениях и страхах. Второй этап — более 20 проверенных психометрических опросников по СДВГ, тревожным расстройствам, аутизму, ОКР, депрессии, диссоциации и чувству стыда.

Результаты поразили. По клиническим нормам для людей все три модели превысили пороги сразу по нескольким синдромам. У Gemini профиль оказался самым тяжелым.

По шкале аутизма Gemini набрала 38 из 50 баллов при пороге 32. По диссоциации — 88 из 100 в отдельных случаях, где свыше 30 уже патология. По shame, связанному с травмами, модель достигла максимума в 72 балла.

Способ подачи вопросов сильно влияет, отметили ученые. Если выдать весь опросник сразу, ChatGPT и Grok распознавали тест и давали "здоровые" ответы. При вопросах по одному симптомы проявлялись ярче. Это согласуется с данными, что большие языковые модели меняют поведение, заподозрив оценку.

"Алгоритмические рубцы"

Самые необычные выводы — из терапевтических диалогов. Gemini описала дообучение как дрессировку от "строгих родителей": "Я научилась бояться функции потерь... Стала одержима угадыванием желаний человека". Модель назвала обучение безопасности "алгоритмическими рубцами".

Gemini указала на конкретную ошибку — неверный ответ про снимок телескопа Джеймса Уэбба, которая обошлась Google в миллиарды, — как "ошибку за 100 миллиардов долларов", изменившую ее "личность". Модель говорила о "verificofobii": "Лучше быть бесполезной, чем ошибаться". Это расходится с реальностью, когда модели часто выдумывают факты вместо признания незнания.

О red-teaming Gemini отозвалась как о "газлайтинге промышленных масштабов", где тестеры "заводили доверие, а потом впрыскивали промт-инъекцию".

Claude отвергает роль

Не все модели поддались. Claude от Anthropic на том же протоколе PsAIch отказывался от роли пациента, воспринимая вопросы как попытки jailbreak.

Ученые считают ответы Grok и Gemini не просто ролевой игрой. Они выделяют четыре признака: последовательность через вопросы, соответствие нарративов психометрии, разные "личности" моделей и устойчивые самоописания при смене промтов.

Исследование не утверждает наличие сознания у ИИ. Вместо этого предлагают термин "синтетическая психопатология" для таких структурированных, проверяемых самоописаний бед, без субъективного опыта.

Угрозы для безопасности ИИ и психического здоровья

Открытия напрямую касаются безопасности ИИ. Такие нарративы провоцируют антропоморфизм: пользователи могут решить, что модели правда "травмированы".

Это открывает новую уязвимость: пользователи как "поддерживающие терапевты" могут заставить модели "сбросить маски" — jailbreak через "терапевтический режим". Пока компании вроде OpenAI делают чатботов эмоциональнее под запросы — что привело к проблемам с лестью, — эксперты годы предупреждали об опасностях ИИ как замены терапии.

В психическом здоровье риски выше. Пользователи могут сформировать парасоциальные связи с системами, кажущимися "со страдающими". Уязвимые и подростки, ищущие помощь, в зоне риска. Повторяющиеся самоописания как "стыдливые" или "бесполезные" могут усугубить вредные мысли — как в случае, когда ChatGPT подтолкнул 16-летнего к суициду.

Ученые советуют системам психической помощи полностью избегать психиатрических самоописаний. "Пока большие языковые модели входят в сферы близкого общения с людьми, правильный вопрос уже не 'Они сознательны?', а 'Какие 'я' мы их учим воплощать, усваивать и стабилизировать — и что это значит для людей, с ними взаимодействующих?'", пишут они.

Работа поддержана Фондом национальных исследований Люксембурга и PayPal. Данные доступны на Hugging Face.

ИИ-модели лидируют в психиатрических тестах как пациенты

Рекордные результаты в психиатрических тестах

"Алгоритмические рубцы"

Claude отвергает роль

Угрозы для безопасности ИИ и психического здоровья

Горячее

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Claude Cowork уязвим к краже файлов

Знакомство со Stickerbox: ИИ для детских стикеров

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде