Новое исследование выявило ключевую слабость современных ИИ-систем: даже самые мощные мультимодальные языковые модели не справляются с базовыми визуальными задачами, которые дети осваивают задолго до первых слов.
Такие модели показывают результаты выше 90% на сложных тестах вроде MMMU. Однако исследование UniPat AI демонстрирует огромный разрыв: лидер среди протестированных, Gemini-3-Pro-Preview, набрал всего 49,7%. Взрослые люди достигли 94,1%.
Ученые из UniPat AI, Пекинского университета, Alibaba Group и MoonShot AI создали бенчмарк BabyVision с 388 заданиями в четырех категориях. Эти задачи проверяют навыки, которые психология развития связывает с первыми месяцами жизни человека: точное различение визуальных деталей вроде мелких отличий в похожих узорах, прослеживание линий через лабиринты или перекрестки, пространственное восприятие вроде подсчета скрытых блоков в 3D-структурах, а также распознавание визуальных паттернов с поворотами и отражениями.
Большинство передовых моделей уступают среднестатистическим трехлеткам
Тестирование на 80 детях разных возрастов подчеркнуло масштаб проблемы. Передовые модели в основном показали результаты ниже среднего у трехлетних детей. Только Gemini-3-Pro-Preview стабильно опередил эту группу, но все равно отстал от типичных шести лет на примерно 20 процентных пунктов.
Среди закрытых моделей Gemini 3 Pro значительно лидирует. GPT-5.2 набирает 34,4%, Doubao-1.8 от Bytedance — 30,2%, Claude 4.5 Opus — лишь 14,2%. Открытые модели выступили еще хуже: лучший результат у Qwen3VL-235B-Thinking — 22,2%.
Разница особенно заметна по типам задач. На подсчете блоков в 3D-структурах топ-модель достигает 20,5%, а люди — 100%. В задаче Lines Observation, где нужно провести линию через узлы, Gemini набирает 83,3%. Остальные модели получили ноль.
Обработка через язык создает слепое пятно для зрения
Ученые объясняют провалы единой причиной — "узким местом вербализации". Современные мультимодальные модели сначала переводят визуальные данные в языковые представления, а потом рассуждают. Любая информация, которую нельзя описать словами, теряется.
Семантическое содержание вроде "красная машина на дороге" легко улавливается языком. Геометрические связи устойчивы к такому переводу: точная кривизна контура или положение узла не передаются без потерь. BabyVision специально нацеливается на эти визуальные свойства, неподдающиеся описанию.
Лабиринты — главная трудность
Исследователи дополнили набор заданием BabyVision-Gen из 280 вопросов. Здесь модели должны были демонстрировать решения через генерацию изображений: рисовать пути, выделять отличия. Люди часто решают такие задачи рисунками, а дети выражают визуальное мышление через рисование еще до того, как смогут объяснить словами.
Генераторы изображений дали некоторые надежды. Nano Banana Pro набрал 18,3%, GPT-Image-1.5 — 9,8%. На поиске отличий Nano Banana Pro дошел до 35,4%. Но все провалили лабиринты и соединение линий полностью. Эти задания требуют сохранения пространственной непрерывности на длинных последовательностях, чего текущие архитектуры не умеют.
Ученые видят выход в "унифицированных мультимодальных моделях", которые напрямую интегрируют обработку и генерацию визуальных данных. Такие системы сохранят визуальные представления на всем пути рассуждений, без сжатия в языковое узкое место. Бенчмарк BabyVision, доступный на GitHub, поможет отслеживать прогресс к настоящему визуальному интеллекту.
Бенчмарк ARC-AGI-3 от Франсуа Шолле проверяет похожие базовые когнитивные навыки вроде постоянства объектов и причинности через интерактивные мини-игры, где ИИ-агенты сами угадывают правила. Пока системы набирают ноль, а люди решают за минуты.