Бенчмарки ИИ обманчивы: нужны HAIC-тесты

Долгое время успех искусственного интеллекта измеряли по тому, сможет ли машина превзойти человека. От шахмат до сложных математических задач, от программирования до сочинения эссе — возможности моделей и приложений ИИ проверяют на отдельных заданиях, сравнивая с результатами одиночных людей.

Такой подход заманчив: сравнение ИИ с человеком на простых задачах с четкими правильными или неправильными ответами легко стандартизировать, сопоставлять и улучшать. Он рождает рейтинги и громкие заголовки.

Проблема в том, что ИИ почти никогда не применяют именно так, как его тестируют. Хотя ученые и компании переходят от статичных проверок к динамическим методам оценки, это решает лишь часть вопросов. Ведь даже они проверяют ИИ вне человеческих команд и рабочих процессов организаций, где на деле проявляется его эффективность.

ИИ оценивают по отдельным задачам в искусственных условиях, а используют в хаотичных, запутанных ситуациях, где он взаимодействует с несколькими людьми. Результаты (хорошие или плохие) видны только после длительного применения. Из-за этого несоответствия мы неправильно понимаем сильные стороны ИИ, упускаем системные опасности и неверно оцениваем его влияние на экономику и общество.

Чтобы исправить ситуацию, пора перейти от узких тестов к бенчмаркам, которые измеряют работу ИИ-систем на протяженных периодах внутри человеческих команд, процессов и организаций. С 2022 года изучались реальные внедрения ИИ в малый бизнес, здравоохранение, гуманитарные проекты, некоммерческие структуры и вузы в Великобритании, США и Азии, а также в ключевых центрах дизайна ИИ в Лондоне и кремниевой долине. В результате предложен новый метод — HAIC-бенчмарки — оценка человек–ИИ в конкретном контексте.

Что показывает провал ИИ

Для властей и компаний результаты бенчмарков кажутся объективнее заявлений продавцов. Они помогают понять, готов ли ИИ-модель или приложение к реальному запуску. Представьте модель с выдающимися показателями на топовых тестах — 98% точности, рекордная скорость, впечатляющие результаты. На основе этого организации вкладывают деньги и силы в покупку и интеграцию.

Но после внедрения разрыв между тестом и реальностью быстро выходит на поверхность. Взять хотя бы множество одобренных FDA моделей ИИ для чтения медицинских снимков — они быстрее и точнее экспертов-рентгенологов. В радиологических отделениях больниц от Калифорнии до пригородов Лондона персонал применял высокооцененные ИИ-приложения. Однако им требовалось дополнительное время, чтобы согласовать выводы ИИ с локальными стандартами отчетности и национальными правилами. Инструмент, обещавший рост производительности в вакууме, на практике создавал задержки.

Стало ясно: тесты, на которых проверяют медицинские ИИ-модели, не учитывают, как принимают решения в медицине. В больницах работают междисциплинарные группы — рентгенологи, онкологи, физики, медсестры, — совместно анализирующие пациентов. План лечения не сводится к разовой оценке, он меняется по мере поступления данных в течение дней или недель. Решения рождаются в спорах, с учетом стандартов, пожеланий пациента и цели долгосрочного здоровья. Неудивительно, что даже лучшие по тестам модели не справляются в сложных совместных процессах клиник.

Та же картина повторяется в других областях: внедренные в реальные условия ИИ-модели, блестящие на стандартизированных проверках, не оправдывают ожиданий.

Когда высокие баллы не переходят в практику, даже топовые ИИ отправляются в то, что называют «кладбище ИИ». Затраты огромны: впустую уходят время, усилия, средства. В итоге падает уверенность организаций в ИИ, а в чувствительных сферах вроде медицины страдает и общественное доверие к технологиям.

Текущие бенчмарки дают лишь частичный, иногда вводящий в заблуждение сигнал о готовности ИИ к реальности. Это создает пробелы в регулировании: контроль опирается на метрики, далекие от жизни. Организации и власти вынуждены рисковать, тестируя ИИ в важных условиях с минимумом ресурсов.

Как создавать надежные тесты

Чтобы сократить разрыв между бенчмарками и реальностью, нужно ориентироваться на условия реального применения ИИ. Главные вопросы: способен ли ИИ стать полезным членом человеческих команд? Может ли он приносить устойчивую общую пользу?

В ряде организаций уже осознанно экспериментируют с подходом HAIC-бенчмарков.

HAIC-бенчмарки меняют существующие тесты в четырех направлениях:

1. От индивидуальной задачи к командным процессам (смена единицы анализа)

2. От разовых проверок с верными/неверными ответами к долгосрочным эффектам (расширение горизонта времени)

3. От точности и скорости к результатам для организации, качеству координации и заметности ошибок (расширение метрик исходов)

4. От изолированных результатов к последствиям на входе и выходе (системные эффекты)

В организациях, где HAIC-бенчмарки начали применять, стартуют со смены единицы анализа.

Например, в одной британской больничной сети в 2021–2024 годах вопрос сместился с улучшения точности диагностики ИИ к влиянию его присутствия в междисциплинарных командах на точность, координацию и обсуждения. Оценивали координацию и размышления в группах с ИИ и без него. Разные участники (внутри и вне больницы) определили показатели: как ИИ меняет совместное мышление, выявляет ли упущенные аспекты, усиливает или ослабляет координацию, влияет ли на риски и соблюдение норм.

Это изменение ключевое. Оно критично в областях с высокими ставками, где важнее системные эффекты, чем точность по задачам. Для экономики оно корректирует завышенные надежды на массовый рост производительности, основанные пока на улучшении отдельных задач.

Далее HAIC-бенчмарки вводят фактор времени.

Современные тесты похожи на школьные экзамены — разовые, унифицированные проверки точности. А профессионализм оценивают иначе: молодых врачей и юристов судят непрерывно в реальных процессах под присмотром, с обратной связью и ответственностью. Компетентность относительна, зависит от контекста и времени. Если ИИ работает с профессионалами, его влияние нужно мерить долгосрочно, через серию взаимодействий.

Такой подход применили в одном гуманитарном проекте на 18 месяцев: оценивали ИИ в реальных процессах, фокусируясь на заметности ошибок — насколько легко командам их находить и исправлять. Долгий «журнал заметности ошибок» позволил создать и проверить локальные барьеры, повышающие доверие несмотря на неизбежные промахи ИИ.

Длинный период выявляет системные последствия, незаметные в кратких тестах. ИИ может обставить врача на узкой диагностике, но не улучшить групповые решения. Хуже — он способен искажать: фиксировать команды на правдоподобных, но неполных выводах, нагружать cognition, создавать неэффективности позже, нивелируя начальные плюсы. Такие побочные эффекты, скрытые от текущих бенчмарков, определяют реальное влияние.

HAIC-бенчмарки усложняют, удорожают и затрудняют стандартизацию тестов. Но оценка ИИ в стерильных условиях, оторванных от работы, не даст понять его настоящие возможности и пределы. Для ответственного внедрения в реальность нужно измерять суть: не только solitary достижения модели, но и то, что она усиливает или разрушает в командах людей.

Бенчмарки ИИ устарели: нужны HAIC-тесты

Что показывает провал ИИ

Как создавать надежные тесты

Горячее