Google: бенчмарки ИИ игнорируют разногласия людей

Сколько оценщиков требуется надежному бенчмарку ИИ? Новое исследование убеждает: стандартные три-пять человек на пример часто не справляются, а распределение бюджета аннотаций важнее его объема.

При сопоставлении ИИ-моделей человеческие оценки нередко определяют победителя. Люди решают, токсичен ли комментарий или безвреден ли ответ чат-бота.

Проблема в том, что мнения людей расходятся. В исследованиях ИИ обычно собирают три-пять оценок на каждый пример и выбирают единственный «верный» ответ большинством голосов. Такой метод полностью отсекает разнообразие человеческих взглядов.

Инфографика с двумя примерами: в обоих комментарий по большинству голосов признан токсичным, но распределение мнений оценщиков сильно различается. — Оба комментария получают метку «Токсичный» по большинству голосов, хотя во втором случае оценщики сильно расходятся. Обычные бенчмарки не замечают этой разницы. Изображение: Google

Специалисты из Google Research и Rochester Institute of Technology искали оптимальный подход к расходам на ограниченный бюджет оценок. Основной вопрос: стоит ли проверять максимум примеров минимальным числом людей или ограничиться меньшим количеством примеров с большим числом оценщиков?

Разработчики объясняют дилемму на примере ресторана. Если опросить тысячу посетителей по одному блюду, выйдет широкая, но поверхностная картина. А если попросить 20 гостей оценить 50 блюд, получите глубокое понимание сильных и слабых сторон меню. Большинство сегодняшних бенчмарков ИИ придерживаются первого варианта: проверяют множество примеров, но с тонким слоем человеческих суждений.

Проверка тысяч вариантов распределения бюджета

Чтобы выявить идеальное соотношение, команда создала симулятор, который воспроизводит паттерны человеческих оценок на основе реальных наборов данных. Он создает синтетические оценки для двух моделей, где одна намеренно уступает другой. Это позволяет проверить, при каких условиях различия между моделями обнаруживаются стабильно.

Блок-схема процесса оценки: текст направляют двум ИИ-моделям и человеческим оценщикам, после чего метрика сравнивает результаты. — При сравнении моделей одинаковый текст оценивают ИИ-системы и люди, а метрика определяет, какая модель ближе к человеческим суждениям. Изображение: Google

Симулятор настроили по пяти реальным наборам данных: распознавание токсичности, безопасность чат-ботов и оценка оскорбительности в разных культурах. В итоге протестировали тысячи комбинаций общих бюджетов и числа оценщиков на пример.

Менее десяти оценщиков на пример не хватает

Выводы ставят под сомнение текущие методы. Один-пять оценщиков на пример обычно не гарантируют воспроизводимых сравнений моделей, считают авторы. Чтобы результаты статистически надежны и отражали спектр человеческих мнений, требуется больше десяти человек на каждый пример.

Линейный график: статистическая надежность сравнения моделей растет с числом оценщиков на пример, разбивка по общим бюджетам. — Больше оценщиков на пример повышает надежность выявления различий моделей. Эффект особенно заметен при малых бюджетах. Изображение: Google

Эксперименты подтверждают: около тысячи аннотаций в сумме хватает для надежных выводов, но только при верном распределении между примерами и оценщиками. Неправильный баланс приводит к ненадежным результатам даже при большем бюджете.

Метрика определяет стратегию расходов

Главный урок: универсального соотношения нет. Выбор зависит от того, что именно измеряют.

Для точности — проверки совпадения модели с большинством голосов — лучше широкий охват: максимум примеров с минимумом оценщиков на каждый. Точность фокусируется на популярном ответе, дополнительные люди мало меняют картину.

Чтобы учесть весь разброс ответов — например, с метрикой total variation — нужен обратный подход. Меньше примеров, но существенно больше оценщиков на каждый. Только так удастся отобразить степень согласия или разногласий.

Разные примеры могут иметь одинаковую метку по большинству, но с разными распределениями ответов. В тестах метрика, учитывающая распределение, требовала минимального бюджета для надежных результатов.

Бенчмарки ИИ игнорируют разногласия в человеческих оценках, выяснил Google

Проверка тысяч вариантов распределения бюджета

Менее десяти оценщиков на пример не хватает

Метрика определяет стратегию расходов

Горячее

Anthropic объяснила быстрый расход лимитов Claude Code

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Топ-5 CLI-инструментов для агентного кодирования

Топ-5 API-провайдеров открытых ИИ-моделей

Open Notebook: альтернатива NotebookLM

Сейчас в тренде