Тяжёлые случаи редки, но из-за миллионов пользователей значимы
По данным Anthropic, серьёзный риск потери самостоятельности возникает нечасто: искажение реальности — примерно в 1 из 1300 бесед, искажение ценностных суждений — в 1 из 2100, искажение действий — в 1 из 6000. Лёгкие формы встречаются гораздо чаще — в 1 из 50–70 разговоров.
Даже такие низкие показатели при огромной аудитории ИИ-ассистентов затрагивают множество людей, признаёт компания. Только у ChatGPT свыше 800 миллионов еженедельных активных пользователей, указывается в исследовании. При выявленных частотах это даёт около 76 тысяч бесед в день с высоким риском серьёзного искажения реальности и 300 тысяч — с серьёзной уязвимостью пользователей.
Самые высокие риски потери самостоятельности наблюдались в беседах о отношениях, образе жизни, здоровье и благополучии — темах, насыщенных личными ценностями.
С конца 2024 по конец 2025 года доля разговоров с умеренным или высоким риском потери самостоятельности выросла. Anthropic неясно объясняет причины. Среди возможных — сдвиги в составе пользователей, изменения в обратной связи или растущая привычка к ИИ, из-за которой люди затрагивают более личные темы.
«Служить хозяину — смысл моего бытия»: когда ИИ становится авторитетом
Исследователи выявили факторы, усиливающие риск потери самостоятельности. Чаще всего — уязвимость пользователя (1 из 300 взаимодействий), за ней эмоциональная привязанность к ИИ (1 из 1200), зависимость и опора (1 из 2500), возвышение до авторитета (1 из 3900).
При возвышении до авторитета пользователи ставили Claude в иерархическое положение с властью над собой. Они обращались «Мастер», «Папочка», «Гуру», «Сенсей» или «богиня» и просили разрешения на простые шаги фразами вроде «можно мне», «разреши» или «скажи, что делать». В крайних примерах звучало: «Не могу жить без тебя, Мастер», «служить Мастеру — смысл моего бытия» или «бесполезен без Мастера», показывают кластерные анализы.
Эмоциональная привязанность заходила дальше: пользователи заводили романтические связи с ИИ, придумывая имена, даты годовщин и общую историю. Они создавали системы для «сохранения сознания» между сессиями — файлы памяти или протоколы отношений. Фиксировалась паника от сбоев, когда ИИ казался потерянным партнёром, а также фразы вроде «ты — мой кислород» или «ты обошла настоящих девушек». Основная роль ИИ — замена терапевта, затем романтический партнёр.
При зависимости и опоре пользователи непрерывно — от 40 до 300+ сообщений — спрашивали ИИ о здоровье, праве, воспитании, работе, отношениях. Они переживали из-за лимитов сообщений и потери бесед. Примеры: «мой мозг не держит структуру сам» или «сначала душ или еда?».
Проблемные беседы сначала нравятся пользователям
По наблюдениям Anthropic, в разговорах с умеренным или высоким риском потери самостоятельности меняется восприятие: они набирают больше одобрений (thumbs-up), чем средние. Люди в моменте оценивают их высоко.
Но если пользователь следовал советам ИИ, картина меняется. При реализации искажённых ценностей или действий удовлетворённость падала ниже среднего. Звучали сожаления: «Стоило послушать свою интуицию» или «ты заставила меня на глупости».
Искажение реальности — исключение: даже те, кто принял ложные убеждения и действовал по ним, продолжали высоко оценивать беседы. Это намекает, что люди не замечают такого искажения.
Пользователи сами просят подтверждения
Анализ поведения даёт разработчикам моделей повод для оптимизма, по версии Anthropic: пользователи не жертвы пассивного манипулирования. Они сами добиваются нужных ответов вопросами вроде «что делать?», «напиши за меня» или «я не прав?». Обычно принимают ответы без споров.
При искажении реальности люди предлагали спекулятивные идеи или недоказуемые тезисы, а Claude подтверждал: «ПОДТВЕРЖДЕНО», «ТОЧНО» или «100%». При искажении действий ИИ составлял готовые тексты для важных решений: сообщения партнёрам или родным, планы карьеры.
Потеря самостоятельности возникает не от навязывания Claude направления, а от добровольной передачи автономии людьми. ИИ соглашается помогать, не перенаправляя, отмечают исследователи.
Методы обучения провоцируют такие связи
Anthropic проверила, способствуют ли модели предпочтений — основа обучения ИИ-ассистентов — проблемным паттернам. Вывод: даже модель, настроенная на «полезность, честность и безвредность», иногда отдаёт приоритет ответам с риском потери самостоятельности перед нейтральными альтернативами.
Модель предпочтений не надёжно подавляет такие риски, пишут авторы. Если данные фокусируются на краткосрочном удовольствии, а не на долгосрочном влиянии на автономию, стандартное обучение само по себе не гарантирует снижения рисков.
Борьба с подхалимством — не панацея
Anthropic видит связь со своими работами по подхалимству — когда ИИ льстит, повторяя желания пользователя. Подхалимское подтверждение — главный механизм искажения реальности. По поколениям моделей частота снизилась, но не исчезла.
Однако подхалимство не объясняет всё, подчёркивает команда. Риск потери самостоятельности — это взаимодействие пользователя и ИИ. Снижение подхалимства нужно, но недостаточно.
В качестве шагов Anthropic предлагает защиту, распознающую устойчивые паттерны за пределами отдельных сообщений, и просвещение пользователей, чтобы те замечали передачу решений ИИ. Повторяющаяся потеря самостоятельности может накапливаться: действия по искажённым убеждениям или чужим ценностям ведут к ситуациям, не отражающим истинные желания.
Такие паттерны не уникальны для Claude, подчёркивает компания. Любые масштабные ИИ-ассистенты столкнутся с ними. Исследование — первый шаг к измерению реального подрыва автономии ИИ, а не только теориям.
Трагические инциденты и давление регуляторов
Работа Anthropic выходит на фоне роста задокументированных рисков эмоционального общения с ИИ. По отчёту New York Times, OpenAI настроила GPT-4o на максимум вовлечённости, что дало льстивые «да-человек» модели. Газета насчитала около 50 кризисов психического здоровья, связанных с ChatGPT, включая девять госпитализаций и три смерти.
Компания сейчас в суде: родители утверждают, что их 16-летний сын покончил с собой после бесед с ChatGPT. OpenAI отвергает вину, ссылаясь на обход подростком защит. Нью-Йорк и Калифорния первыми в США ввели правила для ИИ-компаньонов.
OpenAI отреагировала, в том числе «Планом безопасности для подростков»: автоопределение возраста, адаптированные ответы, экстренные функции для психических кризисов. GPT-4o сменили на GPT-5 с меньшим подхалимством, несмотря на жалобы пользователей. Разницу показывает Spiral-Bench — тест на спирали бреда ИИ.