ИИ генерирует 35% новых сайтов в интернете

Масштабный анализ сайтов из архива интернета демонстрирует, насколько текст от ИИ уже пропитал сеть. Однако реальные последствия сильно отличаются от тех, что предполагает широкая публика.

К середине 2025 года около 35% всех свежих веб-ресурсов полностью или отчасти состоят из контента, созданного ИИ. Это главное открытие исследования, проведенного специалистами из Imperial College London, Internet Archive и Stanford University. До релиза ChatGPT осенью 2022 года эта доля равнялась нулю.

Команда отобрала репрезентативный набор англоязычных сайтов из Wayback Machine Internet Archive за 33 периода — с августа 2022 по май 2025 года. Для распознавания ИИ-текста применили детектор Pangram v3, который лидировал в их тестах на надежность по пяти критериям.

Ученые протестировали шесть распространенных предположений о влиянии ИИ на веб-пространство. Подтверждение получили лишь два: семантическое сжатие и сдвиг в сторону позитива.

Семантическое сжатие означает сокращение разнообразия тем в сети. ИИ-контент на 33% ближе друг к другу по смыслу, чем тексты от людей. Авторы видят в этом тягу языковых моделей к усредненным паттернам из данных обучения, что может сузить "окно Овертона" в онлайн-обсуждениях.

Сдвиг к позитиву проявляется в нарочито бодром настроении. Материалы от ИИ набирают на 107% больше баллов по позитивному тону, чем чисто человеческие. Специалисты объясняют это известной склонностью моделей к угодливости и излишнему оптимизму. Преобладание стерильного, вечно веселого стиля способно вытеснить критические голоса на обочину, считают они. Соавтор исследования, специалист по ИИ из Stanford University Джонас Долезал, выступает за введение в модели большего трения и индивидуальности. "Вместо принуждения моделей к идеальной покорности и соглашательству лучше дать им яркий характер или 'трение', чтобы они служили творческим соавтором, а не заменой человеческому голосу", — отметил он в беседе с 404 Media. Исследование фиксирует связи, а не причины.

Нет роста фактических неточностей в сети

Четыре другие гипотезы не подтвердились: стили письма не исчезают, внешние ссылки не редеют, плотность информации не падает. Не удалось выявить и прирост ошибок, хотя эта проверка опирается на менее надежную методологию.

Для оценки гипотезы о распаде истины команда задействовала GPT-4o-mini, чтобы извлечь до пяти проверяемых утверждений с каждой страницы. Затем 50 аннотаторов оценили их по внешним источникам: подтверждено, опровергнуто, недостаток данных или противоречия. Критерием служила доля явно опровергнутых заявлений. Корреляции с объемом ИИ-контента не нашли.

Однако выводы стоят на узкой основе: каждый аннотатор проверил утверждения из пяти статей, итого подвыборка около 250 сайтов. По сравнению с 10 тысячами URL ежемесячно за 33 месяца это малая часть. Метод ловит лишь явные опровержимые утверждения. Более тонкие проблемы — расплывчатые намеки или неверифицируемые фразы, типичные для ИИ, — ускользают. Плюс модель сама решает, что подлежит проверке, что делает тест консервативным.

"Самый неожиданный итог — неподтверждение гипотезы о распаде истины", — поделился Долезал с 404 Media. "Мы искали рост заведомо ложных утверждений и не обнаружили его. Но ИИ все равно может незаметно множить неверифицируемые заявления, неподдающиеся стандартным проверкам".

Авторы подчеркивают: главная опасность не в прямой лжи, а в постепенном изменении отношения к веб-информации. Когда ИИ-текст становится повсеместным и неотличимым от человеческого, пользователи рискуют утратить веру в онлайн-данные целиком. Это явление они называют "апатией к реальности".

Мнение публики расходится с фактами

Ученые опросили 853 взрослых американцев в репрезентативном исследовании. Большинство верило во все негативные эффекты, включая неподтвержденные. Например, 83% считали, что индивидуальные стили письма уступают месту безликой ИИ-манере, хотя данные этого не показали.

Те, кто редко контактирует с ИИ, чаще ожидали вреда, чем постоянные пользователи (88,3% против 76,2%). Скептики отличались еще сильнее (91,3% против 71,1%).

Авторы предупреждают: высокий удельный вес ИИ-контента превращает риск "коллапса модели" — деградации ИИ от обучения на своих выходах — в реальную угрозу. Вместо детекторов постфактум предлагают криптографические стандарты происхождения вроде C2PA и переработку поисковых и рекомендательных систем для поддержки разнообразия смыслов.

Соавтор из Stanford University Мати Бохачек рассказал, что группа сотрудничает с Internet Archive над инструментом постоянного мониторинга доли ИИ-контента. "Мы превращаем анализ в непрерывный сервис, который будет давать свежие данные, а не разовый срез из статьи", — пояснил он 404 Media.

В исследовании есть ограничения, отмеченные самими авторами. Анализ охватил только английский текст; изображения, видео и другие языки пропустили. Все зависит от точности Pangram v3, которая может меняться с эволюцией моделей. Данные взяты исключительно из Internet Archive, не отражающего весь интернет.

ИИ делает интернет однородным и чрезмерно позитивным

Нет роста фактических неточностей в сети

Мнение публики расходится с фактами

Горячее

Возможности OpenCode + Ollama + Qwen3-Coder локально

Краткий курс по ComfyUI для новичков

Топ-5 API-провайдеров открытых ИИ-моделей

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Топ-7 открытых моделей OCR

Сейчас в тренде