Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Почему ИИ до сих пор не находит то фото с концерта

Новый бенчмарк DeepImageSearch проверяет ИИ на поиск фото в личных коллекциях по контексту из нескольких снимков. Текущие модели дают 10–14% точности, лучшие с инструментами — до 29%, проблема в планировании поиска. DISBench с 122 запросами и 109 тыс. фото доступен публично.

2 часа назад
5 мин
20

Новый бенчмарк проверяет модели ИИ на выполнение кажущейся простой задачи: отыскать нужные снимки в личной галерее.

При поиске конкретного фото люди опираются на воспоминания о обстоятельствах, а не на само изображение. Снимок с концерта, где виден только солист, с выступления у входа с синим и белым логотипом.

Подсказка, указывающая на этот концерт, прячется на совершенно ином фото. Как показало исследование ученых из Рэньминьского университета Китая и исследовательского центра производителя смартфонов Oppo, именно здесь стандартные системы поиска изображений дают сбой.

Существующие мультимодальные инструменты поиска анализируют каждую картинку по отдельности: соответствует ли она запросу? Такой метод справляется, если цель визуально яркая. Но когда решение зависит от связей между несколькими снимками, подход упирается в непреодолимый барьер.

Авторы предлагают метод DeepImageSearch и представляют поиск изображений как задачу самостоятельного исследования. Вместо сопоставления отдельных фото модель ИИ самостоятельно перемещается по галерее, собирая намеки из разных снимков и постепенно приближаясь к цели.

Текущие системы поиска едва ли лучше случайного угадывания

Чтобы продемонстрировать разрыв между современными технологиями и подобными задачами, ученые разработали бенчмарк DISBench. Он включает 122 поисковых запроса по коллекциям 57 пользователей, содержащим свыше 109 000 изображений. Снимки взяты из общедоступного набора данных YFCC100M и охватывают в среднем 3,4 года на пользователя.

Запросы делятся на два типа. Первый предполагает распознавание конкретного события с последующей фильтрацией снимков внутри него. Второй сложнее: модель должна замечать повторяющиеся элементы через несколько событий и группировать их по времени или месту. В обоих случаях анализ одного фото недостаточен.

Результаты обычных моделей встраиваний вроде Qwen3-VL embedding или Seed 1.6 embedding подчеркивают глубину проблемы. Лишь в 10–14% случаев среди топ-3 результатов оказывается искомое изображение. Такие показатели в основном объясняются случайностью, отмечают авторы.

В личных галереях полно визуально похожих фото из разных ситуаций, поэтому модели вытаскивают всё, что поверхностно подходит к запросу. Они не способны проверить соответствие контекстным условиям.

Даже с дополнительными инструментами топ-модели справляются слабо

Для объективной оценки авторы создали фреймворк ImageSeeker. Он предоставляет мультимодальным моделям инструменты помимо простого сопоставления изображений: семантический поиск, доступ к меткам времени и GPS-координатам, прямой просмотр отдельных фото, веб-поиск по незнакомым терминам. Два механизма памяти помогают фиксировать промежуточные итоги и отслеживать длинные пути поиска.

Несмотря на все эти возможности, показатели остаются невысокими. Самая сильная протестированная модель Anthropic Claude Opus 4.5 точно находит все цели в менее чем 29% случаев. OpenAI GPT-5.2 достигает около 13%, Google Gemini 3 Pro Preview — примерно 25%. Открытые модели Qwen3-VL и GLM-4.6V показывают ещё худшие результаты. На стандартных бенчмарках по поиску изображений эти же модели набирают почти идеальные баллы.

Один эксперимент особенно показателен. При нескольких параллельных запусках на запрос с выбором лучшего результата точность вырастает примерно на 70%. Модели явно способны решать такие задачи, но не могут стабильно выдавать правильный ответ за один заход.

Модели хорошо видят, но плохо планируют

Ручной анализ ошибок выявил основные точки сбоя. Самая частая проблема — модели определяют верный контекст, но преждевременно останавливают поиск или забывают ограничения.

Исследование называет это «reasoning breakdown» — шаблон, замеченный и в других сценариях. На него приходится 36–50% всех ошибок. Визуальное распознавание похожих объектов или зданий занимает лишь второе место.

Системный обзор инструментов подтверждает вывод. Из всех возможностей фреймворка метаданные дают наибольший прирост производительности. Без доступа ко времени и локациям точность падает сильнее всего. Временной и пространственный контекст помогает отличать похожие визуально снимки из разных ситуаций.

Авторы считают свой бенчмарк пробным полигоном для поисковых систем следующего поколения. Пока модели оценивают изображения изолированно, сложные запросы в личных коллекциях останутся нерешенными. DeepImageSearch демонстрирует: моделям нужно не столько лучше видеть, сколько эффективнее планировать, соблюдать ограничения и работать с промежуточными данными. Код, набор данных и лидерборд доступны публично.

Как и с текстом, модели ИИ сталкиваются с известной проблемой «lost in the middle» для изображений: визуальная информация в начале или конце набора получает больше внимания, чем в середине. Чем больше датасет и нагруженнее контекстное окно, тем сильнее эффект. Поэтому хорошая инженерия контекста так важна.