Современные исследования подтверждают два утверждения одновременно, и они не противоречат друг другу. На уровне отдельных задач есть убедительные данные о значительном росте производительности благодаря ИИ. А вот на уровне целых компаний или даже всей экономики эти эффекты пока слабы и их сложно измерить.
Доказательства на уровне задач убедительнее, чем кажется
Споры о макроэкономических показателях продуктивности упускают ключевой момент. На уровне отдельных задач известные исследования демонстрируют четкий прирост производительности.
В сфере клиентского обслуживания исследование в Quarterly Journal of Economics показало, что после внедрения генеративного ИИ-ассистента количество решенных вопросов в час выросло на 14–15 процентов. Больше всего выиграли новички. Еще в 2023 году Noy и Zhang установили, что ChatGPT сокращает время на профессиональное письмо и повышает его качество.
В разработке ПО тенденция та же. Раннее исследование GitHub Copilot выявило ускорение на 55,8 процента при выполнении четко заданной задачи по кодированию. В трех полевых экспериментах в Microsoft, Accenture и компании из Fortune 100 количество завершенных задач с ИИ выросло в среднем на 26 процентов. В рандомизированном эксперименте Google разработчики ускорились до 20 процентов.

Большинство этих работ старше и опирались на менее мощные модели. Появились специализированные инструменты вроде Claude Code, а также куда более сильные, такие как Claude Opus 4.6 или GPT-5.4-Thinking. Известный ИИ-исследователь и разработчик Andrej Karpathy в конце 2025 года отметил новый порог возможностей для моделей кодинга. Код дешевеет, становится одноразовым и проще в правке для многих сценариев.
Эти выводы опровергают идею, будто ИИ впечатляет внешне, но не дает реального прироста производительности.
Методологическая сила исследований объясняет их ограничения. Они фиксируют то, что легко наблюдать: время выполнения, объем за час или качество стандартизированного результата. Чем уже задача, тем чище результат. Но ускорение закрытия клиентского тикета не делает команду или компанию пропорционально продуктивнее.
Реальная работа — не бенчмарк
Работа редко сводится к одной задаче. Это цепочки подзадач, уточнения, ожидания, согласования и сбои систем. Модель ИИ может блистать на узкой задаче, но давать скромный эффект в повседневке, если узкое место — в другом.
Полевой эксперимент Microsoft/NBER это иллюстрирует. Изучали 66 компаний и 7137 офисных работников в рандомизированных условиях. Во второй половине шести месяцев активные пользователи сократили время на email на два часа в неделю и меньше работали сверхурочно. Но авторы не нашли признаков, что это время ушло на другие задачи или изменило рабочие привычки в целом. Личное облегчение реально, но перестройка процессов — нет.
В разработке ПО разрыв между возможностями и процессами такой же. В 2025 году METR отметило, что опытные опенсорс-разработчики на знакомых задачах с ИИ замедлились на 19 процентов.
В феврале 2026-го METR скорректировало эти данные. Новые сырые показатели указывают на ускорение благодаря улучшению инструментов. Но даже обновленные выводы с оговорками. Чем лучше инструменты, тем глубже они вливаются в рабочий процесс. Для надежного исследования нужна контрольная группа, добровольно отказавшаяся от них. Те, кто выигрывает больше, не захотят, а желающие — вероятно, те, кто ИИ использует меньше. Контрольная группа искажается, и выводы слабеют.
Новые бенчмарки агентов подчеркивают разрыв между моментальными возможностями и надежным выполнением длинных открытых процессов. APEX-Agents тестирует длительные задачи с инструментами из инвестиций, консалтинга и юриспруденции. Лучшая система решает 24 процента задач с первого раза. FeatureBench проверяет полную реализацию фич в реальных репозиториях — сильная модель справляется лишь с 11 процентами. ResearchGym оценивает полные исследовательские циклы с объективными метриками. Лучший агент улучшает базовые результаты только в 1 из 15 запусков и завершает 26,5 процента подзадач.
Большинство бенчмарков показывают успех в контролируемых тестах. Это касается и агентских. ИИ-компании быстро их "решают" целенаправленным обучением. А перенос в реальную работу под вопросом: задачи там нестандартны, контекст меняется, ошибки бьют сильнее.
Знаниевая работа без конвейера
В производстве продуктивность видно по единицам, браку или циклам. В интеллектуальном труде все иначе.
Аналитик, продакт-менеджер или юрист не штампуют стандарты. Они принимают решения, выстраивают согласование, минимизируют риски. Такие вклады традиционные метрики ловят плохо.
Обзор по измерению продуктивности офисных работников подчеркивает: универсальной метрики нет. Разным работам нужны разные комбинации объема, качества, релевантности и влияния.
Многие фирмы собирают тонны данных: email, минуты встреч, тикеты, отклики. Но это в основном активность и видимость. По Deloitte, 60 процентов руководителей берут такие индикаторы за продуктивность. Сотрудники тратят 32 процента времени на "показуху" — видимость без реального роста.
Если фирма никогда не отслеживала циклы, ошибки или вклад процессов в экономику, эффект ИИ не измерить надежно. Остаются истории или качественные кейсы.
Проблема измерения легко перерастает в стимулы. Генеративный ИИ сначала растит видимый вывод: черновики, ответы, закрытые тикеты, код. Легко посчитать, и это уходит в дашборды, пилоты, ROI.
Как описано в исследовании по экономике труда Jan Sauermann, это искажает. Когда метрики влияют на оценки, люди оптимизируют под них.
Для ИИ вывод практический: фирмы лучше меряют ускоренный вывод, но не всегда его ценность. Из-за обилия подсчитываемого риски спутать продуктивность с видимостью растут.
Больше вывода не всегда значит больше ценности
Даже те, кто фиксирует рост вывода, путают его с результатом. Двойной объем черновиков, email или кода — это больше вывода. Но ценность зависит от того, что они дают. Лишние варианты помогают, только если ведут к лучшим решениям. Больше закрытых тикетов прибыльны, если качество не падает.
| Уровень | Что меряют | Чего не хватает |
|---|---|---|
| Задача | Время, объем, качество одного результата | Влияние на весь процесс |
| Процесс | Цикл, ошибки, переделки | Экономическая ценность результата |
| Компания | Выручка, маржа, лояльность клиентов | Причинная связь с ИИ |
| Экономика | ВВП на час работы | Выделение эффекта ИИ от других факторов |
Данные опроса St. Louis Fed цифрами показывают разрыв. У активных пользователей генеративного ИИ экономия — 5,4 процента рабочего времени. На всю силу труда — 1,4 процента. Авторы оценивают потенциальный прирост в 1,1 процента, но подчеркивают: неясно, проявится ли он в данных. Без правок процессов, целей и ролей сэкономленное уходит в буферы, паузы или болтовню.
Датское реестровое исследование Anders Humlum и Emilie Vestergaard — жесткий тест. Связали опросы использования с данными рынка труда: через два года после чатботов эффекта на доход и часы работы ноль. Больше 2 процентов исключено. Но задачи и мобильность профессий меняются. Эффекты есть, но локальные улучшения не переходят в классические итоги рынка труда.
Европейское исследование фирм Aldasoro и коллег позитивнее. Внедрение ИИ поднимает трудовую продуктивность на 4 процента без спада занятости. Эффекты сильнее в средних и крупных фирмах с вложениями в софт, данные и обучение. Против простой формулы "больше вывода = больше ценности".
Прогнозы Penn Wharton, OECD и даже Anthropic не ждут взрыва. Дополнительный вклад — от долей процента до одного в год, в зависимости от страны и сценария. Затрагивается часть работ, интегрировали ИИ немногие фирмы, конвертируется не все сэкономленное.
Проблема стимулов: никто не показывает полную картину
Продуктивность мерять сложно, и она эмоциональна. Тот, кто признает сокращение пятичасовой задачи до трех, рискует нагрузкой и переоценкой роли. Неудивительно, что работники скрывают экономию времени.
Руководители и вендоры в иной положении. Им нужны бюджеты и истории трансформации, так что ранние ROI оптимистичны, а поздние проверки скромнее.
Workday сообщает: работники отмечают экономию, но фирмы не превращают ее в лучшие итоги. Никто не врет. Работники видят локальные эффекты, фирмы — только вклад в результаты.
Вот почему дебаты об ИИ-продуктивности уязвимы для преувеличений и недооценок сразу.
Скрытые затраты съедают валовой прирост
Слабость многих дебатов — фокус на валовом приросте без чистого. Инструмент экономит пять минут на письме, но добавляет десять на проверку — эффект скромный. Генеративный ИИ вероятностен, так что допнагрузка возникает после: в верификации, правке, контроле качества.
Исследование BCG о "AI Brain Fry" описывает умственное выгорание от надзора за ИИ. Опрос 1488 работников США: 14 процентов пользователей отметили симптомы. ИИ замещает процессы, но рождает новые — проверку и выбор.
BetterUp и Stanford Social Media Lab ввели термин "Workslop" — правдоподобный, но пустой ИИ-контент, требующий доработки. 40 процентов работников получили такой за месяц, обработка — почти два часа на случай. Индивидуальная эффективность перетекает в организационные переделки.

Долгосрочные затраты — на обучение и навыки. Исследование Anthropic с 52 разработчиками показало: интенсивный ИИ при освоении библиотеки ускоряет, но ухудшает тест знаний на 17 процентов. Фирма ускоряется сегодня, но подрывает базу на годы. Разница в использовании: объяснения учат лучше, чем делегирование.
Плюс метакогнитивная ловушка. Исследование в Computers in Human Behavior: ChatGPT улучшает рассуждения, но искажает самооценку. Результаты лучше, но компетентность переоценивают. Ускорение с завышенной уверенностью повышает риски там, где понимание слабо.
Наконец, операционные расходы: безопасная интеграция модели с аудитом, легальностью и совместимостью. Они редко в дебатах. Мерить только скорость черновика без ревью, мониторинга и обучения — это валовая, а не чистая продуктивность.
Что измерять на самом деле
Стандартный вопрос об ИИ: насколько задача ускоряется. Лучше спросить: что меняется в процессе и что из этого дает ценность.
Полезная рамка отличает минимум пять уровней.
- Во-первых, циклы полных процессов, а не только время задач.
- Во-вторых, ошибки и переделки, а не объем.
- В-третьих, качество — не хуже ли стало.
- В-четвертых, ценность для клиентов: быстрее отклики, выше удовлетворенность, меньше эскалаций.
- В-пятых, экономику: выручка, маржа, конверсия или перераспределение квалифицированных сил.
Ключ — что со сэкономленным временем. Исследования St. Louis Fed и Microsoft/NBER подтверждают реальность экономии. Но она продуктивна экономически, только если уходит в ценное. Без второго шага — полуметрика.
Ценность рождается за пределами бенчмарков
Данные продуктивности США за 2025 крепче, внедрение ИИ растет по OECD, фирменные данные видят прирост. Но шум, правки и быстрая личная адаптация против глубокой интеграции. По Budget Lab Йеля, рано говорить о буме ИИ.
Идея экономии времени неполна на всех уровнях. Это первый этап, легкий для фиксации. Ценность — на втором: процессы короче, решения лучше, ошибок меньше, издержки падают. Главный вопрос: при каких условиях локальное ускорение дает экономический эффект.
Три сценария: базовый, ускорение, замедление
Генеративный ИИ дает измеримую экономию на задачах. Много исследований это подтверждают. Но между микроэффективностью и экономической продуктивностью системный разрыв. Надзор, слабые метрики знания, скрытые затраты и инерция мешают бенчмаркам дойти до балансов и макроданных. Дебаты считают путь от задачи к ценности очевидным. На деле он сложный.
Базовый сценарий: разрыв перевода
Если тренды сохранятся, ИИ-инструменты распространятся по процессам за 2–3 года. Но изменения в процессах, метриках и стимулах останутся скромными. Локальная экономия реальна, но уйдет в буферы, лишнюю связь и показуху.
Экономический прирост — доли процента в год, как прогнозируют Penn Wharton, OECD и Anthropic. Разрыв между пилотами и данными сохранится, питая хайп и разочарование.
Сценарий ускорения: прорывы через перестройку и метрики
Ускорение случится при надежных моделях плюс системная перестройка и метрики ценности для знания. Триггер — прорыв автономных кодеров на полные циклы. Успех 11–24 процентов на сложном должен вырасти сильно.
Или стандарты измерения ИИ-процессов. Прирост на фирмах — 3–5 процентов в год в цифровизации. Минус — давление на работников, чьи роли меняются быстрее обучения.
Сценарий замедления: ловушка чистого прироста
Ограничители видны: усталость от надзора, рост пустого вывода, размывание навыков у новичков, рост расходов на комплаенс и риски.
Если это плюс плато моделей или громкий фейл, разочаруются массово. Бюджеты урежут, ИИ сузят. Эффекты утонут в шуме на годы.
Наша оценка
Базовый сценарий вероятнее всего. Исследования показывают шаблон: техника работает на задачах, организации меняются медленно. То же видим в поддержке внедрения ИИ в компаниях DACH-региона .
Сравнения с ПК, интернетом и облаком: около десятилетия от доступности до эффекта в данных.
Бутылочное горлышко — организационная способность: перестройка процессов, метрики, стимулы, ответственность. Пока активность вместо ценности и работники прячут выигрыш, разрыв структурный. Независимо от моделей следующего поколения.