ИИ ускоряет задачи на 55%, но компании не растут

Исследования подтверждают: ИИ ускоряет отдельные задачи на 14–55 процентов, но на уровне компаний и экономики эффекты слабы. Причины — разрыв между тестами и реальностью, слабые метрики знания, скрытые затраты и инерция. Базовый сценарий: скромный прирост в доли процента в год без перестройки.

Современные исследования подтверждают два утверждения одновременно, и они не противоречат друг другу. На уровне отдельных задач есть убедительные данные о значительном росте производительности благодаря ИИ. А вот на уровне целых компаний или даже всей экономики эти эффекты пока слабы и их сложно измерить.

Доказательства на уровне задач убедительнее, чем кажется

Споры о макроэкономических показателях продуктивности упускают ключевой момент. На уровне отдельных задач известные исследования демонстрируют четкий прирост производительности.

В сфере клиентского обслуживания исследование в Quarterly Journal of Economics показало, что после внедрения генеративного ИИ-ассистента количество решенных вопросов в час выросло на 14–15 процентов. Больше всего выиграли новички. Еще в 2023 году Noy и Zhang установили, что ChatGPT сокращает время на профессиональное письмо и повышает его качество.

В разработке ПО тенденция та же. Раннее исследование GitHub Copilot выявило ускорение на 55,8 процента при выполнении четко заданной задачи по кодированию. В трех полевых экспериментах в Microsoft, Accenture и компании из Fortune 100 количество завершенных задач с ИИ выросло в среднем на 26 процентов. В рандомизированном эксперименте Google разработчики ускорились до 20 процентов.

График зависимости продуктивности от стажа работы агентов поддержки с ИИ-ассистентом — Здесь показана связь между продуктивностью и стажем на работе. Пунктирная линия — агенты поддержки, получившие ИИ с первого месяца. Линия с точками и тире — те, кто ИИ не получал. Сплошная линия — агенты без ИИ первые четыре месяца, с доступом с пятого. Интервалы доверия 95 процентов. Данные на уровне работник-месяц.

Большинство этих работ старше и опирались на менее мощные модели. Появились специализированные инструменты вроде Claude Code, а также куда более сильные, такие как Claude Opus 4.6 или GPT-5.4-Thinking. Известный ИИ-исследователь и разработчик Andrej Karpathy в конце 2025 года отметил новый порог возможностей для моделей кодинга. Код дешевеет, становится одноразовым и проще в правке для многих сценариев.

Эти выводы опровергают идею, будто ИИ впечатляет внешне, но не дает реального прироста производительности.

Методологическая сила исследований объясняет их ограничения. Они фиксируют то, что легко наблюдать: время выполнения, объем за час или качество стандартизированного результата. Чем уже задача, тем чище результат. Но ускорение закрытия клиентского тикета не делает команду или компанию пропорционально продуктивнее.

Реальная работа — не бенчмарк

Работа редко сводится к одной задаче. Это цепочки подзадач, уточнения, ожидания, согласования и сбои систем. Модель ИИ может блистать на узкой задаче, но давать скромный эффект в повседневке, если узкое место — в другом.

Полевой эксперимент Microsoft/NBER это иллюстрирует. Изучали 66 компаний и 7137 офисных работников в рандомизированных условиях. Во второй половине шести месяцев активные пользователи сократили время на email на два часа в неделю и меньше работали сверхурочно. Но авторы не нашли признаков, что это время ушло на другие задачи или изменило рабочие привычки в целом. Личное облегчение реально, но перестройка процессов — нет.

В разработке ПО разрыв между возможностями и процессами такой же. В 2025 году METR отметило, что опытные опенсорс-разработчики на знакомых задачах с ИИ замедлились на 19 процентов.

В феврале 2026-го METR скорректировало эти данные. Новые сырые показатели указывают на ускорение благодаря улучшению инструментов. Но даже обновленные выводы с оговорками. Чем лучше инструменты, тем глубже они вливаются в рабочий процесс. Для надежного исследования нужна контрольная группа, добровольно отказавшаяся от них. Те, кто выигрывает больше, не захотят, а желающие — вероятно, те, кто ИИ использует меньше. Контрольная группа искажается, и выводы слабеют.

Новые бенчмарки агентов подчеркивают разрыв между моментальными возможностями и надежным выполнением длинных открытых процессов. APEX-Agents тестирует длительные задачи с инструментами из инвестиций, консалтинга и юриспруденции. Лучшая система решает 24 процента задач с первого раза. FeatureBench проверяет полную реализацию фич в реальных репозиториях — сильная модель справляется лишь с 11 процентами. ResearchGym оценивает полные исследовательские циклы с объективными метриками. Лучший агент улучшает базовые результаты только в 1 из 15 запусков и завершает 26,5 процента подзадач.

Большинство бенчмарков показывают успех в контролируемых тестах. Это касается и агентских. ИИ-компании быстро их "решают" целенаправленным обучением. А перенос в реальную работу под вопросом: задачи там нестандартны, контекст меняется, ошибки бьют сильнее.

Знаниевая работа без конвейера

В производстве продуктивность видно по единицам, браку или циклам. В интеллектуальном труде все иначе.

Аналитик, продакт-менеджер или юрист не штампуют стандарты. Они принимают решения, выстраивают согласование, минимизируют риски. Такие вклады традиционные метрики ловят плохо.

Обзор по измерению продуктивности офисных работников подчеркивает: универсальной метрики нет. Разным работам нужны разные комбинации объема, качества, релевантности и влияния.

Многие фирмы собирают тонны данных: email, минуты встреч, тикеты, отклики. Но это в основном активность и видимость. По Deloitte, 60 процентов руководителей берут такие индикаторы за продуктивность. Сотрудники тратят 32 процента времени на "показуху" — видимость без реального роста.

Если фирма никогда не отслеживала циклы, ошибки или вклад процессов в экономику, эффект ИИ не измерить надежно. Остаются истории или качественные кейсы.

Проблема измерения легко перерастает в стимулы. Генеративный ИИ сначала растит видимый вывод: черновики, ответы, закрытые тикеты, код. Легко посчитать, и это уходит в дашборды, пилоты, ROI.

Как описано в исследовании по экономике труда Jan Sauermann, это искажает. Когда метрики влияют на оценки, люди оптимизируют под них.

Для ИИ вывод практический: фирмы лучше меряют ускоренный вывод, но не всегда его ценность. Из-за обилия подсчитываемого риски спутать продуктивность с видимостью растут.

Больше вывода не всегда значит больше ценности

Даже те, кто фиксирует рост вывода, путают его с результатом. Двойной объем черновиков, email или кода — это больше вывода. Но ценность зависит от того, что они дают. Лишние варианты помогают, только если ведут к лучшим решениям. Больше закрытых тикетов прибыльны, если качество не падает.

Уровень	Что меряют	Чего не хватает
Задача	Время, объем, качество одного результата	Влияние на весь процесс
Процесс	Цикл, ошибки, переделки	Экономическая ценность результата
Компания	Выручка, маржа, лояльность клиентов	Причинная связь с ИИ
Экономика	ВВП на час работы	Выделение эффекта ИИ от других факторов

Данные опроса St. Louis Fed цифрами показывают разрыв. У активных пользователей генеративного ИИ экономия — 5,4 процента рабочего времени. На всю силу труда — 1,4 процента. Авторы оценивают потенциальный прирост в 1,1 процента, но подчеркивают: неясно, проявится ли он в данных. Без правок процессов, целей и ролей сэкономленное уходит в буферы, паузы или болтовню.

Датское реестровое исследование Anders Humlum и Emilie Vestergaard — жесткий тест. Связали опросы использования с данными рынка труда: через два года после чатботов эффекта на доход и часы работы ноль. Больше 2 процентов исключено. Но задачи и мобильность профессий меняются. Эффекты есть, но локальные улучшения не переходят в классические итоги рынка труда.

Европейское исследование фирм Aldasoro и коллег позитивнее. Внедрение ИИ поднимает трудовую продуктивность на 4 процента без спада занятости. Эффекты сильнее в средних и крупных фирмах с вложениями в софт, данные и обучение. Против простой формулы "больше вывода = больше ценности".

Прогнозы Penn Wharton, OECD и даже Anthropic не ждут взрыва. Дополнительный вклад — от долей процента до одного в год, в зависимости от страны и сценария. Затрагивается часть работ, интегрировали ИИ немногие фирмы, конвертируется не все сэкономленное.

Проблема стимулов: никто не показывает полную картину

Продуктивность мерять сложно, и она эмоциональна. Тот, кто признает сокращение пятичасовой задачи до трех, рискует нагрузкой и переоценкой роли. Неудивительно, что работники скрывают экономию времени.

Руководители и вендоры в иной положении. Им нужны бюджеты и истории трансформации, так что ранние ROI оптимистичны, а поздние проверки скромнее.

Workday сообщает: работники отмечают экономию, но фирмы не превращают ее в лучшие итоги. Никто не врет. Работники видят локальные эффекты, фирмы — только вклад в результаты.

Вот почему дебаты об ИИ-продуктивности уязвимы для преувеличений и недооценок сразу.

Скрытые затраты съедают валовой прирост

Слабость многих дебатов — фокус на валовом приросте без чистого. Инструмент экономит пять минут на письме, но добавляет десять на проверку — эффект скромный. Генеративный ИИ вероятностен, так что допнагрузка возникает после: в верификации, правке, контроле качества.

Исследование BCG о "AI Brain Fry" описывает умственное выгорание от надзора за ИИ. Опрос 1488 работников США: 14 процентов пользователей отметили симптомы. ИИ замещает процессы, но рождает новые — проверку и выбор.

BetterUp и Stanford Social Media Lab ввели термин "Workslop" — правдоподобный, но пустой ИИ-контент, требующий доработки. 40 процентов работников получили такой за месяц, обработка — почти два часа на случай. Индивидуальная эффективность перетекает в организационные переделки.

Распределение новых задач от ИИ-чатботов по профессиям — Новые задачи от ИИ-чатботов распределяются по-разному в профессиях. IT-поддержка и разработка фокусируются на интеграции и черновиках, учителя — на этике и комплаенсе, финансовые советники — на инсайтах из данных. Доли — средние среди опрошенных с новыми ИИ-задачами. Доля чистого создания контента мала.

Долгосрочные затраты — на обучение и навыки. Исследование Anthropic с 52 разработчиками показало: интенсивный ИИ при освоении библиотеки ускоряет, но ухудшает тест знаний на 17 процентов. Фирма ускоряется сегодня, но подрывает базу на годы. Разница в использовании: объяснения учат лучше, чем делегирование.

Плюс метакогнитивная ловушка. Исследование в Computers in Human Behavior: ChatGPT улучшает рассуждения, но искажает самооценку. Результаты лучше, но компетентность переоценивают. Ускорение с завышенной уверенностью повышает риски там, где понимание слабо.

Наконец, операционные расходы: безопасная интеграция модели с аудитом, легальностью и совместимостью. Они редко в дебатах. Мерить только скорость черновика без ревью, мониторинга и обучения — это валовая, а не чистая продуктивность.

Что измерять на самом деле

Стандартный вопрос об ИИ: насколько задача ускоряется. Лучше спросить: что меняется в процессе и что из этого дает ценность.

Полезная рамка отличает минимум пять уровней.

Во-первых, циклы полных процессов, а не только время задач.
Во-вторых, ошибки и переделки, а не объем.
В-третьих, качество — не хуже ли стало.
В-четвертых, ценность для клиентов: быстрее отклики, выше удовлетворенность, меньше эскалаций.
В-пятых, экономику: выручка, маржа, конверсия или перераспределение квалифицированных сил.

Ключ — что со сэкономленным временем. Исследования St. Louis Fed и Microsoft/NBER подтверждают реальность экономии. Но она продуктивна экономически, только если уходит в ценное. Без второго шага — полуметрика.

Ценность рождается за пределами бенчмарков

Данные продуктивности США за 2025 крепче, внедрение ИИ растет по OECD, фирменные данные видят прирост. Но шум, правки и быстрая личная адаптация против глубокой интеграции. По Budget Lab Йеля, рано говорить о буме ИИ.

Идея экономии времени неполна на всех уровнях. Это первый этап, легкий для фиксации. Ценность — на втором: процессы короче, решения лучше, ошибок меньше, издержки падают. Главный вопрос: при каких условиях локальное ускорение дает экономический эффект.

Три сценария: базовый, ускорение, замедление

Генеративный ИИ дает измеримую экономию на задачах. Много исследований это подтверждают. Но между микроэффективностью и экономической продуктивностью системный разрыв. Надзор, слабые метрики знания, скрытые затраты и инерция мешают бенчмаркам дойти до балансов и макроданных. Дебаты считают путь от задачи к ценности очевидным. На деле он сложный.

Базовый сценарий: разрыв перевода

Если тренды сохранятся, ИИ-инструменты распространятся по процессам за 2–3 года. Но изменения в процессах, метриках и стимулах останутся скромными. Локальная экономия реальна, но уйдет в буферы, лишнюю связь и показуху.

Экономический прирост — доли процента в год, как прогнозируют Penn Wharton, OECD и Anthropic. Разрыв между пилотами и данными сохранится, питая хайп и разочарование.

Сценарий ускорения: прорывы через перестройку и метрики

Ускорение случится при надежных моделях плюс системная перестройка и метрики ценности для знания. Триггер — прорыв автономных кодеров на полные циклы. Успех 11–24 процентов на сложном должен вырасти сильно.

Или стандарты измерения ИИ-процессов. Прирост на фирмах — 3–5 процентов в год в цифровизации. Минус — давление на работников, чьи роли меняются быстрее обучения.

Сценарий замедления: ловушка чистого прироста

Ограничители видны: усталость от надзора, рост пустого вывода, размывание навыков у новичков, рост расходов на комплаенс и риски.

Если это плюс плато моделей или громкий фейл, разочаруются массово. Бюджеты урежут, ИИ сузят. Эффекты утонут в шуме на годы.

Наша оценка

Базовый сценарий вероятнее всего. Исследования показывают шаблон: техника работает на задачах, организации меняются медленно. То же видим в поддержке внедрения ИИ в компаниях DACH-региона .

Сравнения с ПК, интернетом и облаком: около десятилетия от доступности до эффекта в данных.

Бутылочное горлышко — организационная способность: перестройка процессов, метрики, стимулы, ответственность. Пока активность вместо ценности и работники прячут выигрыш, разрыв структурный. Независимо от моделей следующего поколения.

Почему продуктивность ИИ теряется между тестами и финансами