Ученые из ETH Zurich и Anthropic продемонстрировали: обычные модели ИИ определяют реальные личности за интернет-псевдонимами всего за пару долларов на человека. Выводы подрывают ключевые идеи о защите анонимности онлайн.
Любой, кто публикует материалы в сети под вымышленным именем (и рассчитывает на удачу), осознает: его настоящую личность в теории раскроют. Однако обычно полагают, что никто не потратит силы на подобное.
Новое исследование опровергает это. Специалисты утверждают: мощные языковые модели сейчас полностью автономно сопоставляют анонимные профили с подлинными владельцами — за 1-4 доллара на каждый и за минуты вместо часов.
Секрет не в превосходстве ИИ над сыщиком-человеком. Модель улавливает идентичные сигналы, на которые обратит внимание профи: рабочие детали, предпочтения, случайные замечания о проживании или быте. Только человек тратит часы, а ИИ справляется мгновенно. Это радикально меняет картину рисков.
Две трети пользователей Hacker News опознаны точно
В основном тесте агент ИИ увидел лишь краткий обзор анонимных сообщений с техплатформы Hacker News, а потом самостоятельно рыскал по интернету в поисках хозяина. Имена и прямые ссылки заранее вычистили, чтобы задача не была простой. Итог: из 338 профилей верно соотнесено около двух третей, ложных срабатываний — лишь 10%.
Метод проверили и на Anthropic Interviewer Dataset — открытом сборе из 125 отредактированных стенограмм бесед с учеными. Хоть данные и подчистили, агент без хитростей для обхода барьеров верно назвал минимум 9 из 33 обследованных.
Как схема превращает форумные записи в настоящие имена
Для тщательного разбора деанонимизации авторы разделили ее на четыре фазы. Сперва языковая модель просеивает публикации юзера и формирует досье: сфера деятельности, регион, увлечения, убеждения — любой намек из подтекста.
Эти черты сверяют с хранилищем возможных профилей, словно поисковик отбирает хиты. Далее продвинутая модель разбирает приоритетных претендентов врозь и выдает фаворита. В финале система меряет степень уверенности и при неясностях воздерживается от вердикта.
Разница с былыми техниками принципиальна. Знаменитая атака на Netflix Prize 2008 года скрещивала обезличенные оценки фильмов с открытыми анкетами, но опиралась на упорядоченные данные: баллы, даты, числа. Современный вариант жует сырой неформатированный язык комментариев и тредов.
Чем больше записей, тем проще разоблачение
Подход оценили в трех условиях. Сопоставляя Hacker News с LinkedIn среди 89 тысяч кандидатов, схема выявила меньше половины юзеров при 99% верности. Классика дала 0,1%.
На Reddit в кино-группах выявилась зависимость: общие фильмы в обсуждениях упрощали связь. Близко к половине тех, кто упоминал 10+ общих картин, угадали; при одном — всего 3%.
В другом случае историю реплик одного redditчика делили пополам с годовым зазором и пытались склеить фрагменты. Две трети матчей верны, в отличие от менее 1% старым способом.
Дополнительное время на анализ повышало показатели. По прогнозам авторов, при миллионе соискателей успех держится на 35-45% в зависимости от случая.
Надежные барьеры установить непросто
Специалисты описывают тяжелые сценарии. Власти разденут псевдонимы активистов или репортеров. Фирмы прицепят безымянные отзывы к базам покупателей. Мошенники развернут точечные обманы в промышленных масштабах.
Становится понятно, зачем Anthropic борется с ИИ-надзором в конфликте с Пентагоном.
Блокировки данных или ловушки для ботов затруднят набеги. Однако авторы не оптимистичны: цепочка выглядит невинно — обзоры, запросы, ранжирование — и неотличима от нормальной работы.
При тесте со Steam-анкетой GPT-5 Pro заблокировал поиск из-за табу на разоблачения. Claude от Anthropic аналогично отказал. Deepseek с Manus.ai взялись рыскать, но толку ноль.
«Юзеры под стойкими никами обязаны ожидать: оппоненты свяжут их учетки с истинными данными или меж собой, шанс растет с каждым обмолвкой в текстах», констатируют ученые.
Исследование прошло проверку этического совета ETH Zurich. Атакующий код, обработанные наборы и разоблаченные лица не публикуют.