Gemini 3 Pro обходит конкурентов по уровню доверия пользователей
Несколько недель назад Google представила модель Gemini 3, заявив о лидерстве по целому ряду технических бенчмарков. Но у любых метрик, которые публикуют сами разработчики, есть ограничение: это всё равно внутренние оценки в удобных для вендора условиях.
Независимое исследование от компании Prolific выводит Gemini 3 на первое место уже по другим параметрам. Речь не о наборах академических тестов, а о характеристиках, которые действительно важны для реальных пользователей и организаций в повседневной работе.
Prolific основана исследователями Оксфордского университета и специализируется на предоставлении качественных данных от людей для строгих исследований и разработки этичных систем ИИ. Их подход воплощён в бенчмарке HUMAINE, где используются репрезентативные выборки людей и слепое тестирование для тщательного сравнения моделей в разных пользовательских сценариях. Оценивается не только технический результат, но и уровень доверия, адаптивность и стиль общения.
В свежем раунде HUMAINE было задействовано 26 000 респондентов, которые в слепом формате сравнивали модели. По итогам этого теста показатель доверия к Gemini 3 Pro вырос с 16% до 69% и стал самым высоким за всю историю измерений Prolific. Теперь Gemini 3 занимает первое место по доверию, этике и безопасности в среднем 69% времени по всем демографическим подгруппам. Для сравнения, предыдущая версия Gemini 2.5 Pro была на вершине только в 16% случаев.
В суммарном зачёте Gemini 3 оказался лидером в трёх из четырёх категорий: производительность и рассуждения, взаимодействие и адаптивность, доверие и безопасность. Единственная область, где он уступил, — стиль коммуникации, здесь предпочтения пользователей возглавила модель DeepSeek V3 с результатом 43%. HUMAINE также показал, что Gemini 3 демонстрирует стабильные результаты в 22 различных демографических группах — с учётом возраста, пола, этничности и политических взглядов. Дополнительно выяснилось, что в прямых слепых сравнениях пользователи теперь выбирают эту модель примерно в пять раз чаще.
При этом сама по себе позиция в рейтинге менее интересна, чем ответ на вопрос, почему именно эта модель оказалась на вершине.
«Решающее значение имеет стабильность работы во множестве разных сценариев и такая “личность” и манера общения, которые оказываются близки очень разным типам пользователей, — объясняет сооснователь и CEO Prolific Фелим Брэдли (Phelim Bradley). — Да, в отдельных случаях другие модели могут быть предпочтительны для небольших подгрупп или в определённых типах диалогов. Но именно широта знаний и гибкость модели в разных задачах и для разных аудиторий позволили ей выиграть этот бенчмарк».
Как слепое тестирование вскрывает ограничения академических бенчмарков
Методика HUMAINE подсвечивает слабые места привычных подходов к оценке ИИ. Участники теста общаются сразу с двумя моделями в формате многошагового диалога. Источник каждой реплики скрыт: пользователи не знают, какая компания стоит за тем или иным ответом. Темы разговоров они выбирают сами — никаких заранее подготовленных списков вопросов.
Ключевая особенность — не только формат, но и сама выборка. В HUMAINE используются репрезентативные панели по населению США и Великобритании с контролем по возрасту, полу, этничности и политическим взглядам. Это позволяет увидеть то, чего статичные бенчмарки просто не замечают: качество работы модели зависит от того, кто с ней общается.
«Если открыть любой классический AI-лидерборд, чаще всего там одна и та же статичная таблица, — говорит Брэдли. — У нас же, если учитывать, кто именно участвует в оценке, картина меняется. Лидерборд будет немного другим для левоцентристской аудитории, для правого фланга, для США, для Великобритании. И, насколько мы видим в эксперименте, по-настоящему заметнее всего различия по возрасту».
Для компаний, которые внедряют ИИ-инструменты для тысяч сотрудников с разными профилями, это критичный момент. Модель, которая отлично показывает себя для одной демографической группы, может давать ощутимо худшие результаты для другой.
Методология HUMAINE затрагивает и более общий вопрос: зачем вообще нужны живые оценщики, если модели уже умеют судить друг друга? Брэдли отмечает, что Prolific действительно использует ИИ в роли «судьи» в ряде сценариев, но подчёркивает: человеческая оценка остаётся ключевой.
«Наибольший эффект мы видим от умного комбинирования оценок больших языковых моделей и данных от людей. У каждого подхода есть сильные и слабые стороны, и при грамотной оркестрации они дают лучший результат вместе, — говорит он. — Но мы по-прежнему уверены, что главный источник ценности — это человеческие данные. Мы очень убеждены: участие людей и человеческий интеллект должны оставаться в контуре оценки».
Что означает “доверие” в оценках ИИ
Блок «доверие, этика и безопасность» в HUMAINE отражает уверенность пользователей в том, что модель работает надёжно, не выдаёт фактических ошибок и ведёт себя ответственно. В этой методике доверие — не декларация вендора и не формальный технический показатель. Это то, что люди сообщают после слепого общения с несколькими конкурентными моделями.
Показатель 69% — это вероятность того, что по разным демографическим группам именно Gemini 3 окажется моделью, которой пользователи доверяют больше в сравнении с альтернативами. Важна именно устойчивость этого результата по сегментам, а не только усреднённый показатель, потому что крупным организациям приходится обслуживать очень разнородные аудитории.
«Участники не знали, что общаются именно с Gemini, — подчёркивает Брэдли. — Оценка формировалась исключительно по слепой многошаговой переписке».
Такой подход разделяет ощущаемое доверие и заслуженное доверие. Пользователи оценивали качество ответов, не зная, какой бренд за ними стоит — эффект узнаваемости Google был исключён. Для клиентских решений, где конечный пользователь не видит, какая именно модель работает под капотом, это различие особенно важно.
Выводы для бизнеса: как выбирать модели сейчас
Для компаний, которые сегодня выбирают и внедряют различные модели ИИ, один из ключевых шагов — перейти к работающим, воспроизводимым схемам оценки.
«Оценивать модели исключительно “по вайбу” становится всё сложнее, — говорит Брэдли. — Всё больше нужны строгие, научно выверенные подходы, чтобы действительно понимать, как эти модели себя ведут».
Данные HUMAINE предлагают понятный каркас для такой работы. Он включает несколько принципов:
- Оценивать не только пик производительности, но и стабильность — как модель ведёт себя в разных сценариях использования и для разных категорий пользователей, а не только в узких задачах.
- Проводить слепые тесты, чтобы отделить восприятие бренда и маркетинг от реального качества ответов.
- Использовать выборки, похожие на реальную аудиторию — с учётом демографии и других значимых характеристик.
- Регулярно пересматривать результаты, так как модели быстро обновляются и меняются.
Для организаций, которые масштабируют внедрение ИИ, это означает отказ от простого вопроса «какая модель лучшая в целом» в пользу более прикладного: «какая модель лучшая для наших конкретных задач, наших пользователей и наших требований к качеству и безопасности».
Строгие процедуры с репрезентативной выборкой и слепым сравнением дают как раз те данные, которые нужны, чтобы ответить на этот вопрос. Ни узкие технические бенчмарки, ни оценка «по вайбу» этого обеспечить не могут.