Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Бенчмарки ИИ игнорируют разногласия в человеческих оценках, выяснил Google

Исследование Google Research и Rochester Institute of Technology выявило, что стандартные бенчмарки ИИ с 3–5 оценщиками игнорируют разнообразие человеческих мнений. Симулятор показал: для надежности нужно более 10 человек на пример и правильное распределение бюджета. Стратегия зависит от метрики — для точности хватит широкого охвата, для разброса ответов требуется глубокая оценка.

5 апреля 2026 г.
4 мин
25

Сколько оценщиков требуется надежному бенчмарку ИИ? Новое исследование убеждает: стандартные три-пять человек на пример часто не справляются, а распределение бюджета аннотаций важнее его объема.

При сопоставлении ИИ-моделей человеческие оценки нередко определяют победителя. Люди решают, токсичен ли комментарий или безвреден ли ответ чат-бота.

Проблема в том, что мнения людей расходятся. В исследованиях ИИ обычно собирают три-пять оценок на каждый пример и выбирают единственный «верный» ответ большинством голосов. Такой метод полностью отсекает разнообразие человеческих взглядов.

Инфографика с двумя примерами: в обоих комментарий по большинству голосов признан токсичным, но распределение мнений оценщиков сильно различается.
Оба комментария получают метку «Токсичный» по большинству голосов, хотя во втором случае оценщики сильно расходятся. Обычные бенчмарки не замечают этой разницы. Изображение: Google

Специалисты из Google Research и Rochester Institute of Technology искали оптимальный подход к расходам на ограниченный бюджет оценок. Основной вопрос: стоит ли проверять максимум примеров минимальным числом людей или ограничиться меньшим количеством примеров с большим числом оценщиков?

Разработчики объясняют дилемму на примере ресторана. Если опросить тысячу посетителей по одному блюду, выйдет широкая, но поверхностная картина. А если попросить 20 гостей оценить 50 блюд, получите глубокое понимание сильных и слабых сторон меню. Большинство сегодняшних бенчмарков ИИ придерживаются первого варианта: проверяют множество примеров, но с тонким слоем человеческих суждений.

Проверка тысяч вариантов распределения бюджета

Чтобы выявить идеальное соотношение, команда создала симулятор, который воспроизводит паттерны человеческих оценок на основе реальных наборов данных. Он создает синтетические оценки для двух моделей, где одна намеренно уступает другой. Это позволяет проверить, при каких условиях различия между моделями обнаруживаются стабильно.

Блок-схема процесса оценки: текст направляют двум ИИ-моделям и человеческим оценщикам, после чего метрика сравнивает результаты.
При сравнении моделей одинаковый текст оценивают ИИ-системы и люди, а метрика определяет, какая модель ближе к человеческим суждениям. Изображение: Google

Симулятор настроили по пяти реальным наборам данных: распознавание токсичности, безопасность чат-ботов и оценка оскорбительности в разных культурах. В итоге протестировали тысячи комбинаций общих бюджетов и числа оценщиков на пример.

Менее десяти оценщиков на пример не хватает

Выводы ставят под сомнение текущие методы. Один-пять оценщиков на пример обычно не гарантируют воспроизводимых сравнений моделей, считают авторы. Чтобы результаты статистически надежны и отражали спектр человеческих мнений, требуется больше десяти человек на каждый пример.

Линейный график: статистическая надежность сравнения моделей растет с числом оценщиков на пример, разбивка по общим бюджетам.
Больше оценщиков на пример повышает надежность выявления различий моделей. Эффект особенно заметен при малых бюджетах. Изображение: Google

Эксперименты подтверждают: около тысячи аннотаций в сумме хватает для надежных выводов, но только при верном распределении между примерами и оценщиками. Неправильный баланс приводит к ненадежным результатам даже при большем бюджете.

Метрика определяет стратегию расходов

Главный урок: универсального соотношения нет. Выбор зависит от того, что именно измеряют.

Для точности — проверки совпадения модели с большинством голосов — лучше широкий охват: максимум примеров с минимумом оценщиков на каждый. Точность фокусируется на популярном ответе, дополнительные люди мало меняют картину.

Чтобы учесть весь разброс ответов — например, с метрикой total variation — нужен обратный подход. Меньше примеров, но существенно больше оценщиков на каждый. Только так удастся отобразить степень согласия или разногласий.

Разные примеры могут иметь одинаковую метку по большинству, но с разными распределениями ответов. В тестах метрика, учитывающая распределение, требовала минимального бюджета для надежных результатов.