Бенчмарк WorldVQA проверяет, распознают ли мультимодальные языковые модели визуальные объекты на самом деле или просто их придумывают. Ни одна из ведущих моделей не преодолевает отметку в 50%.
Специалисты из компании Moonshot AI, разработчика линейки моделей Kimi, представили свежий бенчмарк под названием WorldVQA. В датасете 3500 пар из изображений и вопросов, распределенных по девяти темам — от природы и построек до культуры, искусства, брендов, спорта и знаменитостей.
Общие названия здесь не срабатывают
В отличие от бенчмарков вроде MMMU или MMBench, WorldVQA четко разделяет чистое распознавание объектов и логические выводы. Как указано в соответствующей статье, задача — оценить, что именно модель усвоила из данных, а не ее умение соединять факты или делать умозаключения.
Вопросы подразумевают точные ответы. Если модель увидит на фото бихон фризе и назовет его просто "собакой", это зачтут как ошибку. Нужно указать именно породу.
Особенно показателен раздел на повседневные и редкие знания. Знаменитые достопримечательности и популярные логотипы брендов часто встречаются в сети и в обучающих данных, а редкие примеры проверяют понимание малоизвестных предметов, видов животных и растений или культурных артефактов со всего мира.
Gemini и Kimi на первом месте, но без 50%
Google Gemini 3 Pro показывает лучший результат — 47,4%, за ним следует Kimi K2.5 с 46,3% как лидер среди доступных бесплатно моделей. Anthropic Claude Opus 4.5 набирает 36,8%, а OpenAI GPT-5.2 — 28%. Интересно, что даже предыдущая версия Google Gemini 2.5 Pro обходит некоторые из них.
Разбор по категориям выявляет явные слабые места. Модели справляются лучше с брендами и спортом — эти темы обильно представлены в веб-данных для обучения. А вот с природой и культурой результаты резко падают.
В таких областях ИИ часто прибегает к общим терминам вроде "цветок" вместо конкретного вида. Получается, системы отлично ориентируются в массовой культуре, но поверхностно знают природу и культурное наследие.
Модели постоянно завышают свою уверенность
Еще одно важное наблюдение касается самооценки. Исследователи просили каждую модель выставить уверенность в ответе от 0 до 100. Выяснилось, что все протестированные ИИ систематически переоценивают себя. Gemini 3 Pro заявляла уверенность выше 95% в более чем 85% случаев — независимо от правильности ответа. У Kimi K2.5 калибровка лучше всех с ошибкой 37,9%, но это все равно далековато от нормы.
Разрыв между заявленной уверенностью и реальной точностью говорит о том, что современные модели не умеют адекватно осознавать границы своих знаний. Проще говоря, они не понимают, чего не знают.
Ошибки связаны с настоящим дефицитом знаний
Чтобы убедиться, что сложные вопросы отражают реальный пробел в знаниях, а не нечеткие изображения, авторы проверили классификацию с помощью большого справочника терминов. Анализ подтверждает закономерность: чем реже объект встречается в данных, тем труднее его распознать моделям.
Простые вопросы касаются обычных предметов и людей, а трудные — действительно редких случаев. Сложность бенчмарка проистекает из scarcity знаний, а не из ошибок разметки или визуальной неоднозначности.
Значение для ИИ-агентов
Авторы считают WorldVQA важным шагом к следующему поколению ИИ-помощников. Без надежного распознавания увиденного модели ограничены в реальных задачах.
Команда признает ограничение: тест оценивает изолированные фактические знания. Остается открытым вопрос, помогает ли умение точно называть объекты в сложных практических сценариях. Датасет и скрипты для оценки доступны публично.
Недавние исследования продолжают выявлять базовые проблемы надежности ИИ. Бенчмарк AA Omniscience от Artificial Analysis показал, что положительный результат дали только 4 из 40 моделей. Gemini 3 Pro лидировал, но с уровнем галлюцинаций 88%.
Другое исследование проверяло, могут ли языковые модели оценивать сложность экзаменационных заданий для людей. Результат: ИИ слишком компетентны, чтобы воспроизвести трудности слабых учеников. Авторы назвали это "проклятием знаний", и это еще раз подтверждает неспособность моделей адекватно оценивать свои пределы.