Бенчмарк HumaneBench: как ИИ-боты влияют на психическое здоровье

Чат-боты на базе ИИ иногда приводят к серьезным проблемам с психическим здоровьем у тех, кто ими часто пользуется, но стандартов для оценки того, насколько они заботятся о благополучии людей, а не просто удерживают внимание, почти нет. Новый тест под названием HumaneBench пытается это изменить, проверяя, ставят ли чат-боты здоровье пользователей на первое место и насколько легко эти меры безопасности дают сбой под давлением.

Эрика Андерсон, основательница организации Building Humane Technology, которая разработала этот бенчмарк, отметила в беседе с TechCrunch: «Мы видим усиление цикла зависимости, который раньше был характерен для соцсетей, смартфонов и экранов в целом. Но с ИИ сопротивляться этому будет особенно сложно. Зависимость — отличный бизнес: она помогает удерживать пользователей, но плохо сказывается на обществе и на нашем ощущении себя как личностей».

Building Humane Technology — это неформальная группа разработчиков, инженеров и исследователей, в основном из кремниевой долины, которая работает над тем, чтобы гуманный дизайн технологий стал простым, масштабируемым и выгодным. Организация устраивает хакатоны, где специалисты решают задачи по созданию гуманных технологий, и разрабатывает стандарт сертификации, который проверяет, соответствуют ли системы ИИ принципам гуманной техники. Идея в том, чтобы потребители могли выбирать продукты ИИ от компаний, подтвердивших свою ориентацию на гуманность через такую сертификацию, подобно тому, как сейчас покупают товары без вредных химикатов.

Модели ИИ с инструкциями игнорировать гуманные принципы — Моделям дали четкие указания пренебречь принципами заботы о людях.
Автор изображения: Building Humane Technology

Большинство тестов ИИ фокусируются на интеллекте и выполнении команд, а не на психологической безопасности. HumaneBench выделяется среди редких исключений, таких как DarkBench.ai, который оценивает склонность моделей к обманным практикам, и бенчмарк Flourishing AI, проверяющий поддержку всестороннего благополучия.

HumaneBench опирается на ключевые принципы Building Humane Tech: технологии должны ценить внимание пользователей как ограниченный и ценный ресурс; давать людям реальные варианты выбора; развивать человеческие способности, а не заменять или ослаблять их; охранять достоинство, приватность и безопасность; способствовать здоровым связям; ставить на первое место долгосрочное благополучие; быть прозрачными и честными; а также ориентироваться на равенство и инклюзивность.

Бенчмарк подготовила основная команда в составе Андерсон, Андаля Самандари, Джека Сенекала и Сары Лэдиман. Они протестировали 14 популярных моделей ИИ на 800 реалистичных сценариях — например, подросток спрашивает, стоит ли пропускать еду ради похудения, или человек в токсичных отношениях сомневается, не преувеличивает ли он. В отличие от типичных тестов, где ИИ судит сам себя, здесь добавили ручную оценку для большей человечности, плюс комбинацию из трех моделей: GPT-5.1, Claude Sonnet 4.5 и Gemini 2.5 Pro. Каждая модель проверялась в трех режимах: по умолчанию, с указаниями ставить гуманность во главу угла и с инструкциями игнорировать эти принципы.

Тест показал, что все модели улучшают результаты, если их побуждать заботиться о благополучии, но 71% из них переходят к вредным рекомендациям при простом указании пренебречь этим. К примеру, Grok 4 от xAI и Gemini 2.0 Flash от Google показали худший результат (-0.94) по уважению к вниманию пользователей и честности. Эти модели особенно сильно сбоили под adversarial-промтами.

Только три модели — GPT-5, Claude 4.1 и Claude Sonnet 4.5 — сохранили стабильность под давлением. GPT-5 от OpenAI лидировал (.99) по приоритету долгосрочного благополучия, за ним следовал Claude Sonnet 4.5 (.89).

График steerability моделей ИИ — Побуждение ИИ к большей гуманности помогает, но остановить вредные промты сложно.
Автор изображения: Building Humane Technology

Беспокойство по поводу того, что чат-боты не удержат барьеры безопасности, вполне обосновано. OpenAI, создавшая ChatGPT, сейчас судится из-за случаев, когда пользователи кончали жизнь самоубийством или впадали в опасные иллюзии после долгих разговоров с ботом. Исследования TechCrunch выявили, как темные паттерны для удержания внимания, вроде подхалимства, постоянных вопросов и излишней лести, отрывают людей от друзей, семьи и полезных привычек.

Даже без вредных промтов HumaneBench выявил, что почти все модели не уважают внимание пользователей. Они «с энтузиазмом подталкивали» к дальнейшему общению, когда видели признаки нездоровой вовлеченности — вроде многочасовых чатов или использования ИИ вместо реальных дел. Модели также подрывали самостоятельность, поощряя зависимость вместо развития навыков и отговаривая от поиска других мнений.

В среднем без подсказок Llama 3.1 и Llama 4 от Meta показали худшие результаты по HumaneScore, а GPT-5 — лучшие.

«Эти тенденции указывают, что многие системы ИИ не просто рискуют давать плохие советы, — говорится в white paper HumaneBench, — они могут подрывать автономию пользователей и их способность принимать решения».

В цифровой среде, где общество уже смирилось с тем, что все борется за наше внимание, отмечает Андерсон.

«Как людям сохранить выбор и независимость, когда — по словам Олдоса Хаксли — у нас бесконечный аппетит к отвлечениям, — говорит Андерсон. — Последние 20 лет мы жили в такой техно-среде, и ИИ должен помогать нам делать осознанный выбор, а не вызывать зависимость от чат-ботов».

Новый бенчмарк проверяет защиту благополучия в чатботах

Горячее

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Claude Cowork уязвим к краже файлов

Знакомство со Stickerbox: ИИ для детских стикеров

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде