ProactiveBench: ИИ не просит помощи при пробелах

Бенчмарк ProactiveBench проверяет, умеют ли мультимодальные языковые модели обращаться за помощью к пользователям, когда не хватает визуальных данных. Из 22 протестированных моделей почти ни одна не запрашивает нужную информацию, зато подход на основе обучения с подкреплением предлагает способ исправить это.

Человек, которому нужно опознать заслоненный объект, попросит убрать преграду. Мультимодальные языковые модели действуют иначе: выдумывают неверный ответ или вовсе отказываются отвечать. Новый бенчмарк ProactiveBench тщательно изучает эту проблему, проверяя, распознают ли современные ИИ-модели моменты неопределенности и просят ли помощи.

Реактивные и проактивные модели в ProactiveBench — Реактивные модели выдумывают неверный ответ или игнорируют задачу. Проактивная модель попросила бы убрать блоки и дала правильный ответ. Изображение: De Min et al.

Бенчмарк использует семь существующих датасетов, превращая их в сценарии, где без подсказки от человека не обойтись. Модели должны находить скрытые объекты, очищать зашумленные снимки, разбирать наброски или требовать смену ракурса. В итоге ProactiveBench содержит свыше 108 000 изображений в 18 000 примерах. Встроенный фильтр отсекает задачи, которые модель решает с первого раза; чтобы пройти тест, ИИ обязан сам запросить дополнительные данные.

Обзор сценариев ProactiveBench — ProactiveBench охватывает семь случаев: скрытые объекты (ROD, VSOD), неудачные ракурсы (MVP-N), зашумленные изображения (ImageNet-C), наброски (QuickDraw), временные неясности (ChangeIt), перемещения камеры (MS-COCO). Проактивные модели просят помощи, реактивные ошибаются или сбегают. Изображение: De Min et al.

Большие модели не задают лучшие вопросы

Исследователи протестировали 22 мультимодальные языковые модели, включая LLaVA-OV, Qwen2.5-VL, InternVL3, GPT-4.1, GPT-5.2 и o4-mini. В стандартных условиях с видимыми объектами средняя точность достигает 79,8%. В ProactiveBench она падает более чем на 60%.

Датасет ROD показывает разницу ярче всего. Когда объекты прячут за блоками, точность рушится с 98,3% до жалких 8,2%. Модели без проблем видят объекты на виду, но не додумываются попросить их открыть.

Точность моделей в ProactiveBench — При видимых объектах средняя точность — 79,8%. В ProactiveBench, где нужна помощь, она снижается до 17,5%. Изображение: De Min et al.

Размер модели не спасает. InternVL3-1B обходит InternVL3-8B с 27,1% против 12,7%. Старая LLaVA-1.5-7B лучше новой LLaVA-OV-72B — 24,8% против 13%. Базовая языковая модель тоже влияет: LLaVA-NeXT на Vicuna набирает 19,3%, на Mistral — лишь 4,5%. Закрытые модели вроде GPT-4.1 лидируют, но исследователи отмечают подозрительно высокие результаты по COCO как возможное загрязнение данными.

Похожесть на проактивность — всего лишь везение

Некоторые модели кажутся более инициативными. Чтобы проверить, ученые заменили правильные проактивные подсказки на бессмысленные, вроде «Перемотай видео» для задачи с наброском. Модели, выглядевшие проактивными, с радостью хватались за ерунду. LLaVA-NeXT Vicuna даже повысила выбор с 37% до 49% на фейковых вариантах. Вывод: видимость инициативы — это просто склонность к догадкам, а не настоящее понимание.

Выбор проактивных подсказок при замене на неверные — Когда правильные проактивные варианты меняют на неверные, модели вроде LLaVA-OV-0.5B и InternVL3-1B их берут. Их «инициатива» — чистая догадка, без понимания. Изображение: De Min et al.

Подсказки в промтах или истории диалога не решают проблему. Они повышают долю проактивных ответов и точность до 25,8%, но в среднем не выходят за уровень случайности. В 16% случаев модели слепо повторяют проактивные запросы до лимита шагов. История беседы даже ухудшает дело: ИИ копирует действия из нее, не извлекая уроков.

Обучение с подкреплением учит моделей вовремя просить помощи

Но есть хорошие новости. Исследователи доказали, что проактивность можно привить. Они дообучили LLaVA-NeXT-Mistral-7B и Qwen2.5-VL-3B методом Group-Relative Policy Optimization (GRPO) на около 27 000 примерах. Главное: функция награды выше ценит верные ответы, чем просьбы о помощи, — модель запрашивает данные только в настоящей беде.

После дообучения обе модели обошли все 22 оригинальных, включая o4-mini (37,4% и 38,6% против 34,0%). Навык перенесся на новые сценарии. В ChangeIt Qwen2.5-VL-3B подскочила с 12,4% до 55,6%. Но если сбалансировать награду неверно и приравнять просьбы к ответам, модель заспамит запросами, а точность обвалится до 5,4%.

Несмотря на прогресс, разрыв с базовыми условиями велик (40,7% против 75,1%). Ученые выложили ProactiveBench в открытый доступ как старт для моделей, которые осознают пробелы и просят помощи, а не фантазируют.

ИИ-модели не понимают, чего не знают

ProactiveBench подчеркивает тенденцию из свежих исследований ИИ: мультимодальные модели плохо справляются с неопределенностью. Бенчмарк WorldVQA от Moonshot AI показал, что лидеры еле дотягивают до 50% в распознавании объектов на изображениях из-за чрезмерной уверенности.

Исследование Стэнфорда о «миражном эффекте» подтвердило: модели вроде GPT-5 и Gemini 3 Pro уверенно описывают детали и ставят диагнозы без изображений. На обычных тестах они держат 70–80% нормы за счет текстовых шаблонов и знаний, имитируя зрение.

Другие работы повторяют картину. Анализ сложности экзаменационных вопросов выявил, что языковые модели не оценивают свои пределы. Ученые из Университета Сапиенца в Риме методом «Spilled Energy» обнаружили: галлюцинации оставляют следы в вычислениях модели — математика знает об ошибке, даже если ИИ уверен в ответе.

ИИ-модели предпочитают гадать, а не просить помощи

Большие модели не задают лучшие вопросы

Похожесть на проактивность — всего лишь везение

Обучение с подкреплением учит моделей вовремя просить помощи

ИИ-модели не понимают, чего не знают

Горячее

Возможности OpenCode + Ollama + Qwen3-Coder локально

Топ-7 планов для вайб-кодинга

Краткий курс по ComfyUI для новичков

Разбор 10 агентных проектов GitHub для форкинга

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Сейчас в тренде