Мультимодальные модели ниже 50% в распознавании объектов

Бенчмарк WorldVQA проверяет, распознают ли мультимодальные языковые модели визуальные объекты на самом деле или просто их придумывают. Ни одна из ведущих моделей не преодолевает отметку в 50%.

Специалисты из компании Moonshot AI, разработчика линейки моделей Kimi, представили свежий бенчмарк под названием WorldVQA. В датасете 3500 пар из изображений и вопросов, распределенных по девяти темам — от природы и построек до культуры, искусства, брендов, спорта и знаменитостей.

Общие названия здесь не срабатывают

В отличие от бенчмарков вроде MMMU или MMBench, WorldVQA четко разделяет чистое распознавание объектов и логические выводы. Как указано в соответствующей статье, задача — оценить, что именно модель усвоила из данных, а не ее умение соединять факты или делать умозаключения.

Вопросы подразумевают точные ответы. Если модель увидит на фото бихон фризе и назовет его просто "собакой", это зачтут как ошибку. Нужно указать именно породу.

Особенно показателен раздел на повседневные и редкие знания. Знаменитые достопримечательности и популярные логотипы брендов часто встречаются в сети и в обучающих данных, а редкие примеры проверяют понимание малоизвестных предметов, видов животных и растений или культурных артефактов со всего мира.

Gemini и Kimi на первом месте, но без 50%

Google Gemini 3 Pro показывает лучший результат — 47,4%, за ним следует Kimi K2.5 с 46,3% как лидер среди доступных бесплатно моделей. Anthropic Claude Opus 4.5 набирает 36,8%, а OpenAI GPT-5.2 — 28%. Интересно, что даже предыдущая версия Google Gemini 2.5 Pro обходит некоторые из них.

Разбор по категориям выявляет явные слабые места. Модели справляются лучше с брендами и спортом — эти темы обильно представлены в веб-данных для обучения. А вот с природой и культурой результаты резко падают.

В таких областях ИИ часто прибегает к общим терминам вроде "цветок" вместо конкретного вида. Получается, системы отлично ориентируются в массовой культуре, но поверхностно знают природу и культурное наследие.

Модели постоянно завышают свою уверенность

Еще одно важное наблюдение касается самооценки. Исследователи просили каждую модель выставить уверенность в ответе от 0 до 100. Выяснилось, что все протестированные ИИ систематически переоценивают себя. Gemini 3 Pro заявляла уверенность выше 95% в более чем 85% случаев — независимо от правильности ответа. У Kimi K2.5 калибровка лучше всех с ошибкой 37,9%, но это все равно далековато от нормы.

Разрыв между заявленной уверенностью и реальной точностью говорит о том, что современные модели не умеют адекватно осознавать границы своих знаний. Проще говоря, они не понимают, чего не знают.

Ошибки связаны с настоящим дефицитом знаний

Чтобы убедиться, что сложные вопросы отражают реальный пробел в знаниях, а не нечеткие изображения, авторы проверили классификацию с помощью большого справочника терминов. Анализ подтверждает закономерность: чем реже объект встречается в данных, тем труднее его распознать моделям.

Простые вопросы касаются обычных предметов и людей, а трудные — действительно редких случаев. Сложность бенчмарка проистекает из scarcity знаний, а не из ошибок разметки или визуальной неоднозначности.

Значение для ИИ-агентов

Авторы считают WorldVQA важным шагом к следующему поколению ИИ-помощников. Без надежного распознавания увиденного модели ограничены в реальных задачах.

Команда признает ограничение: тест оценивает изолированные фактические знания. Остается открытым вопрос, помогает ли умение точно называть объекты в сложных практических сценариях. Датасет и скрипты для оценки доступны публично.

Недавние исследования продолжают выявлять базовые проблемы надежности ИИ. Бенчмарк AA Omniscience от Artificial Analysis показал, что положительный результат дали только 4 из 40 моделей. Gemini 3 Pro лидировал, но с уровнем галлюцинаций 88%.

Другое исследование проверяло, могут ли языковые модели оценивать сложность экзаменационных заданий для людей. Результат: ИИ слишком компетентны, чтобы воспроизвести трудности слабых учеников. Авторы назвали это "проклятием знаний", и это еще раз подтверждает неспособность моделей адекватно оценивать свои пределы.

Мультимодальные ИИ не дотягивают до 50% в распознавании

Общие названия здесь не срабатывают

Gemini и Kimi на первом месте, но без 50%

Модели постоянно завышают свою уверенность

Ошибки связаны с настоящим дефицитом знаний

Значение для ИИ-агентов

Горячее

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Claude Cowork уязвим к краже файлов

Знакомство со Stickerbox: ИИ для детских стикеров

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде