Anthropic: AI Fluency Index о снижении проверок Claude

Anthropic представил новый "AI Fluency Index", который оценивает реальную компетентность пользователей ИИ-инструментов. Главное открытие: качественный внешний вид ответов Claude ослабляет критический взгляд.

Сейчас всё больше пользователей ежедневно прибегают к ИИ, но это не гарантирует высокого уровня навыков. Anthropic как раз и взялся за этот вопрос через AI Fluency Index, изучив почти 10 000 анонимных диалогов с Claude за январь.

Анализ выявил ряд тенденций, среди которых выделяется одна: чем богаче выглядит результат ИИ, тем реже люди тратят время на его правдоподобие. В 12,3 процента бесед встречались артефакты — это готовые продукты от Claude, такие как фрагменты кода, файлы или рабочие виджеты.

В подобных диалогах люди заранее формулировали задания точнее. Но такая внимательность не переходила в этап оценки.

Ситуация складывалась обратная: при артефактах реже сигнализировали о нехватке фона (-5,2 процентных пункта), реже перепроверяли данные (-3,7 п.п.) и реже ставили под сомнение логику Claude (-3,1 п.п.). Сама Anthropic в Economic Index признаёт: модель хуже всего работает с особо трудными заданиями.

Anthropic называет возможные причины: завершенный облик воспринимается как готовый продукт. В задачах вроде создания интерфейса приоритет отдают виду и полезности, а не строгой точности. Плюс, тестирование часто уходит за пределы чата — скажем, код запускают в другой среде.

Затяжные диалоги оттачивают умение работать с ИИ

Отчёт подчёркивает связь между доработками и остальными метриками мастерства. В 85,7 процента диалогов фиксировались итерации — постепенная правка вместо слепого принятия старта.

Итеративные сессии набирали в среднем 2,67 показателя компетентности сверх нормы, что вдвое больше, чем 1,33 в простых случаях. Особенно бросается в глаза разница в контроле: итераторы в 5,6 раза чаще разбирали логику и в 4 раза активнее ловили пробелы в контексте.

Ещё один пробел — в управлении процессом: только 30 процентов пользователей задавали Claude правила игры, вроде "возражай против моих ошибок" или "сначала покажи ход мыслей, потом ответ". Anthropic подчёркивает: такие указания полностью меняют тон беседы.

Из цифр компания выводит три совета: берите дебютный вариант как набросок, а не финал, особенно настороженно встречая лоснящиеся артефакты, и сразу оговаривайте совместную работу.

Но есть подвох: когда итерации затягивают чат, натыкаются на барьер. Многочисленные тесты подтверждают, что наполнение окна чата лишним ухудшает отдачу от ИИ. Длинный диалог засоряется, и настоящая сноровка включает timely разрыв для чистого листа.

Основные грани мастерства ускользают от взгляда

Anthropic опирался на 4D-AI Fluency Framework от профессоров Rick Dakan и Joseph Feller при участии фирмы. Схема описывает 24 черты умелого общения с ИИ, однако только 11 проявляются прямо в чатах.

Остальные 13 — среди них важнейшие для ИИ-владения, как предупреждение коллег об ИИ-происхождении материалов — разворачиваются за экраном и плохо поддаются фиксации. Anthropic намерен разобраться в них через качественный анализ позже.

Индекс AI Fluency от Anthropic: гладкий ИИ снижает бдительность

Затяжные диалоги оттачивают умение работать с ИИ

Основные грани мастерства ускользают от взгляда

Горячее

Краткий курс по ComfyUI для новичков

Возможности OpenCode + Ollama + Qwen3-Coder локально

Генератор видео ChatUp AI без цензуры: ключевые возможности

Топ-7 открытых моделей OCR

5 открытых ИИ-моделей для редактирования изображений

Сейчас в тренде