Долгое время успех искусственного интеллекта измеряли по тому, сможет ли машина превзойти человека. От шахмат до сложных математических задач, от программирования до сочинения эссе — возможности моделей и приложений ИИ проверяют на отдельных заданиях, сравнивая с результатами одиночных людей.
Такой подход заманчив: сравнение ИИ с человеком на простых задачах с четкими правильными или неправильными ответами легко стандартизировать, сопоставлять и улучшать. Он рождает рейтинги и громкие заголовки.
Проблема в том, что ИИ почти никогда не применяют именно так, как его тестируют. Хотя ученые и компании переходят от статичных проверок к динамическим методам оценки, это решает лишь часть вопросов. Ведь даже они проверяют ИИ вне человеческих команд и рабочих процессов организаций, где на деле проявляется его эффективность.
ИИ оценивают по отдельным задачам в искусственных условиях, а используют в хаотичных, запутанных ситуациях, где он взаимодействует с несколькими людьми. Результаты (хорошие или плохие) видны только после длительного применения. Из-за этого несоответствия мы неправильно понимаем сильные стороны ИИ, упускаем системные опасности и неверно оцениваем его влияние на экономику и общество.
Чтобы исправить ситуацию, пора перейти от узких тестов к бенчмаркам, которые измеряют работу ИИ-систем на протяженных периодах внутри человеческих команд, процессов и организаций. С 2022 года изучались реальные внедрения ИИ в малый бизнес, здравоохранение, гуманитарные проекты, некоммерческие структуры и вузы в Великобритании, США и Азии, а также в ключевых центрах дизайна ИИ в Лондоне и кремниевой долине. В результате предложен новый метод — HAIC-бенчмарки — оценка человек–ИИ в конкретном контексте.
Что показывает провал ИИ
Для властей и компаний результаты бенчмарков кажутся объективнее заявлений продавцов. Они помогают понять, готов ли ИИ-модель или приложение к реальному запуску. Представьте модель с выдающимися показателями на топовых тестах — 98% точности, рекордная скорость, впечатляющие результаты. На основе этого организации вкладывают деньги и силы в покупку и интеграцию.
Но после внедрения разрыв между тестом и реальностью быстро выходит на поверхность. Взять хотя бы множество одобренных FDA моделей ИИ для чтения медицинских снимков — они быстрее и точнее экспертов-рентгенологов. В радиологических отделениях больниц от Калифорнии до пригородов Лондона персонал применял высокооцененные ИИ-приложения. Однако им требовалось дополнительное время, чтобы согласовать выводы ИИ с локальными стандартами отчетности и национальными правилами. Инструмент, обещавший рост производительности в вакууме, на практике создавал задержки.
Стало ясно: тесты, на которых проверяют медицинские ИИ-модели, не учитывают, как принимают решения в медицине. В больницах работают междисциплинарные группы — рентгенологи, онкологи, физики, медсестры, — совместно анализирующие пациентов. План лечения не сводится к разовой оценке, он меняется по мере поступления данных в течение дней или недель. Решения рождаются в спорах, с учетом стандартов, пожеланий пациента и цели долгосрочного здоровья. Неудивительно, что даже лучшие по тестам модели не справляются в сложных совместных процессах клиник.
Та же картина повторяется в других областях: внедренные в реальные условия ИИ-модели, блестящие на стандартизированных проверках, не оправдывают ожиданий.
Когда высокие баллы не переходят в практику, даже топовые ИИ отправляются в то, что называют «кладбище ИИ». Затраты огромны: впустую уходят время, усилия, средства. В итоге падает уверенность организаций в ИИ, а в чувствительных сферах вроде медицины страдает и общественное доверие к технологиям.
Текущие бенчмарки дают лишь частичный, иногда вводящий в заблуждение сигнал о готовности ИИ к реальности. Это создает пробелы в регулировании: контроль опирается на метрики, далекие от жизни. Организации и власти вынуждены рисковать, тестируя ИИ в важных условиях с минимумом ресурсов.
Как создавать надежные тесты
Чтобы сократить разрыв между бенчмарками и реальностью, нужно ориентироваться на условия реального применения ИИ. Главные вопросы: способен ли ИИ стать полезным членом человеческих команд? Может ли он приносить устойчивую общую пользу?
В ряде организаций уже осознанно экспериментируют с подходом HAIC-бенчмарков.
HAIC-бенчмарки меняют существующие тесты в четырех направлениях:
1. От индивидуальной задачи к командным процессам (смена единицы анализа)
2. От разовых проверок с верными/неверными ответами к долгосрочным эффектам (расширение горизонта времени)
3. От точности и скорости к результатам для организации, качеству координации и заметности ошибок (расширение метрик исходов)
4. От изолированных результатов к последствиям на входе и выходе (системные эффекты)
В организациях, где HAIC-бенчмарки начали применять, стартуют со смены единицы анализа.
Например, в одной британской больничной сети в 2021–2024 годах вопрос сместился с улучшения точности диагностики ИИ к влиянию его присутствия в междисциплинарных командах на точность, координацию и обсуждения. Оценивали координацию и размышления в группах с ИИ и без него. Разные участники (внутри и вне больницы) определили показатели: как ИИ меняет совместное мышление, выявляет ли упущенные аспекты, усиливает или ослабляет координацию, влияет ли на риски и соблюдение норм.
Это изменение ключевое. Оно критично в областях с высокими ставками, где важнее системные эффекты, чем точность по задачам. Для экономики оно корректирует завышенные надежды на массовый рост производительности, основанные пока на улучшении отдельных задач.
Далее HAIC-бенчмарки вводят фактор времени.
Современные тесты похожи на школьные экзамены — разовые, унифицированные проверки точности. А профессионализм оценивают иначе: молодых врачей и юристов судят непрерывно в реальных процессах под присмотром, с обратной связью и ответственностью. Компетентность относительна, зависит от контекста и времени. Если ИИ работает с профессионалами, его влияние нужно мерить долгосрочно, через серию взаимодействий.
Такой подход применили в одном гуманитарном проекте на 18 месяцев: оценивали ИИ в реальных процессах, фокусируясь на заметности ошибок — насколько легко командам их находить и исправлять. Долгий «журнал заметности ошибок» позволил создать и проверить локальные барьеры, повышающие доверие несмотря на неизбежные промахи ИИ.
Длинный период выявляет системные последствия, незаметные в кратких тестах. ИИ может обставить врача на узкой диагностике, но не улучшить групповые решения. Хуже — он способен искажать: фиксировать команды на правдоподобных, но неполных выводах, нагружать cognition, создавать неэффективности позже, нивелируя начальные плюсы. Такие побочные эффекты, скрытые от текущих бенчмарков, определяют реальное влияние.
HAIC-бенчмарки усложняют, удорожают и затрудняют стандартизацию тестов. Но оценка ИИ в стерильных условиях, оторванных от работы, не даст понять его настоящие возможности и пределы. Для ответственного внедрения в реальность нужно измерять суть: не только solitary достижения модели, но и то, что она усиливает или разрушает в командах людей.