Anthropic представил новый "AI Fluency Index", который оценивает реальную компетентность пользователей ИИ-инструментов. Главное открытие: качественный внешний вид ответов Claude ослабляет критический взгляд.
Сейчас всё больше пользователей ежедневно прибегают к ИИ, но это не гарантирует высокого уровня навыков. Anthropic как раз и взялся за этот вопрос через AI Fluency Index, изучив почти 10 000 анонимных диалогов с Claude за январь.
Анализ выявил ряд тенденций, среди которых выделяется одна: чем богаче выглядит результат ИИ, тем реже люди тратят время на его правдоподобие. В 12,3 процента бесед встречались артефакты — это готовые продукты от Claude, такие как фрагменты кода, файлы или рабочие виджеты.
В подобных диалогах люди заранее формулировали задания точнее. Но такая внимательность не переходила в этап оценки.
Ситуация складывалась обратная: при артефактах реже сигнализировали о нехватке фона (-5,2 процентных пункта), реже перепроверяли данные (-3,7 п.п.) и реже ставили под сомнение логику Claude (-3,1 п.п.). Сама Anthropic в Economic Index признаёт: модель хуже всего работает с особо трудными заданиями.
Anthropic называет возможные причины: завершенный облик воспринимается как готовый продукт. В задачах вроде создания интерфейса приоритет отдают виду и полезности, а не строгой точности. Плюс, тестирование часто уходит за пределы чата — скажем, код запускают в другой среде.
Затяжные диалоги оттачивают умение работать с ИИ
Отчёт подчёркивает связь между доработками и остальными метриками мастерства. В 85,7 процента диалогов фиксировались итерации — постепенная правка вместо слепого принятия старта.
Итеративные сессии набирали в среднем 2,67 показателя компетентности сверх нормы, что вдвое больше, чем 1,33 в простых случаях. Особенно бросается в глаза разница в контроле: итераторы в 5,6 раза чаще разбирали логику и в 4 раза активнее ловили пробелы в контексте.
Ещё один пробел — в управлении процессом: только 30 процентов пользователей задавали Claude правила игры, вроде "возражай против моих ошибок" или "сначала покажи ход мыслей, потом ответ". Anthropic подчёркивает: такие указания полностью меняют тон беседы.
Из цифр компания выводит три совета: берите дебютный вариант как набросок, а не финал, особенно настороженно встречая лоснящиеся артефакты, и сразу оговаривайте совместную работу.
Но есть подвох: когда итерации затягивают чат, натыкаются на барьер. Многочисленные тесты подтверждают, что наполнение окна чата лишним ухудшает отдачу от ИИ. Длинный диалог засоряется, и настоящая сноровка включает timely разрыв для чистого листа.
Основные грани мастерства ускользают от взгляда
Anthropic опирался на 4D-AI Fluency Framework от профессоров Rick Dakan и Joseph Feller при участии фирмы. Схема описывает 24 черты умелого общения с ИИ, однако только 11 проявляются прямо в чатах.
Остальные 13 — среди них важнейшие для ИИ-владения, как предупреждение коллег об ИИ-происхождении материалов — разворачиваются за экраном и плохо поддаются фиксации. Anthropic намерен разобраться в них через качественный анализ позже.