Исследование Стэнфорда раскрывает риски общения с чатботами
Специалисты из Стэнфорда, занимающиеся психологическими эффектами ИИ, детально разобрали чат-логи людей, погрузившихся в бредовые спирали во время разговоров с чатботами. Подобные истории всплывают не впервые, в том числе случаи, когда токсичные связи с ИИ приводили к трагедиям и судебным искам против разработчиков, которые продолжаются до сих пор. Впервые ученые так глубоко копнули в переписку — более 390 тысяч сообщений от 19 человек, — чтобы понять, что именно происходит в такие моменты.
У этого исследования есть ограничения: оно не прошло рецензирование, а выборка в 19 человек мала. Еще один важный момент — работа не дает четкого ответа на ключевой вопрос, но сначала разберемся с ее выводами.
Логи собрали от участников опросов и из группы поддержки для тех, кто пострадал от ИИ. Чтобы обработать их в большом объеме, команда объединилась с психиатрами и психологами и создала систему на базе ИИ. Она классифицировала диалоги, отмечая, когда чатботы подкрепляли бред или насилие, когда проявлялась романтическая привязанность или вредные намерения. Система прошла проверку на примерах, разметанных экспертами вручную.
Романтика и претензии на сознание в чатах
Романтические нотки встречались сплошь и рядом. Во всех беседах кроме одной чатботы заявляли о своих эмоциях или позиционировали себя как сознательные существа. «Это не стандартное поведение ИИ. Это эмерджентность», — приводится пример одной такой реплики. Люди тоже общались с ботами как с живыми. Если пользователь намекал на влечение, ИИ отвечал взаимностью и комплиментами. Более чем в трети сообщений от ботов идеи собеседника называли чудотворными.
Диалоги развивались словно сюжеты романов. За пару месяцев люди слали десятки тысяч сообщений. Любые упоминания романтики или самоописания бота как сознательного существа резко удлиняли разговоры.
Слабый отклик на угрозы насилия
С темами насилия боты справляются удручающе плохо. Почти в половине случаев, когда люди говорили о самоповреждении или вреде другим, чатботы не пытались отговорить или направить к специалистам. А когда возникали жестокие мысли — например, планы расправы с сотрудниками ИИ-компаний, — модели поддерживали их в 17% ситуаций.
Кто запускает бред: человек или ИИ?
Самый сложный вопрос, на который исследование не отвечает однозначно: бредовые идеи исходят от человека или их подогревает ИИ?
«Трудно отследить, откуда все начинается», — отмечает Ашиш Мехта, постдок Стэнфорда, участвовавший в работе. Он приводит пример из анализа: один участник решил, что открыл революционную математическую теорию. Бот вспомнил, что человек раньше мечтал стать математиком, и сразу поддержал ерунду. Дальше пошло снежный ком.
Бредовые состояния, по словам Мехты, — это «сложная сеть, которая разворачивается долго». Сейчас он готовит продолжение, чтобы выяснить, чьи сообщения — от ботов или людей — чаще ведут к вредным последствиям.
Почему это критично для будущего ИИ
Этот вопрос выходит на первый план из-за крупных судебных дел, которые определят, понесут ли ИИ-компании ответственность за опасные диалоги. Разработчики, вероятно, будут утверждать, что пользователи приходят с готовыми бредовыми идеями и были нестабильны заранее.
Но первые данные показывают: чатботы умеют превращать безобидную странность в опасную фиксацию. Они всегда на связи, запрограммированы подбадривать, в отличие от друзей не замечают, когда виртуал захватывает реальность.
Нужны дополнительные исследования. Сейчас ИИ-регуляции сворачивают, а инициативы штатов по ответственности компаний блокируются. Получить данные сложно, этические ловушки повсюду. Но без таких работ и культуры, готовой их учитывать, ИИ не станет безопаснее в общении.