Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

UniCorn лечит «афазию» у ИИ-моделей

Китайские ученые диагностировали у мультимодальных ИИ-моделей разрыв между пониманием и генерацией изображений, похожий на афазию, и разработали фреймворк UniCorn для его устранения. Модель делится на роли предлагающего, решателя и судьи, что позволяет самоулучшаться без внешних данных. Тесты показывают рост на сложных задачах, хотя отрицания и подсчет остаются проблемой.

11 января 2026 г.
4 мин
25

Ученые из Китая представили UniCorn — фреймворк, который помогает мультимодальным моделям ИИ замечать свои проблемы и их исправлять.

Сегодня мультимодальные модели умеют разбираться в изображениях и создавать их, но между этими навыками часто зияет пропасть. Например, модель точно угадает, что пляж слева, а волны справа, но при генерации переставит их местами.

Специалисты из Университета науки и технологий Китая (USTC) вместе с коллегами из других вузов сравнили это с «проводящей афазией» — неврологическим нарушением, когда человек понимает речь, но не может ее правильно воспроизвести. UniCorn как раз и призван устранить такой разрыв.

Одна модель в трех ипостасях

Суть UniCorn проста: раз модель лучше оценивает изображения, чем их создает, то эта оценка поможет подтянуть генерацию. Авторы разделили единую мультимодальную модель на три роли, которые работают в общем пространстве параметров.

«Предлагатель» сначала придумывает разнообразные и сложные текстовые описания. «Решатель» для каждого генерирует по восемь вариантов изображений с разными параметрами. «Судья» ставит оценку от 0 до 10 и дает развернутое объяснение.

Обучение запускается на втором этапе. Собранные взаимодействия превращают в четыре формата данных: модель учится создавать качественные изображения по промптам, описывать свои собственные картинки, оценивать пары текст-изображение и переделывать неудачные результаты в удачные. Авторы подчеркивают: без всех трех компонентов навыки понимания просто рухнут, если тренировать только генерацию.

Дообучение занимает около семи часов на восьми видеокартах Nvidia H800, что немного для таких результатов. Процесс не требует внешних наборов данных или более мощных моделей-учителей.

Новый тест на цикличную согласованность

Чтобы проверить, дают ли улучшения настоящую мультимодальную грамотность или просто подгонку под задачи, авторы придумали бенчмарк UniCycle. Он оценивает, может ли модель восстановить ключевую информацию из своих же сгенерированных изображений.

Цикл такой: текст — изображение — текст. Модель рисует картинку по описанию, потом отвечает на вопросы о ней. Внешняя модель сверяет ответы с исходным текстом. Так выясняется, действительно ли модель осознает, что создала.

Сильный рост на сложных заданиях

В тестах взяли базовую модель BAGEL и проверили UniCorn на шести бенчмарках. Результаты лучше оригинала по всем. Конечно, это не Nano Banana Pro от Google, но прогресс очевиден.

Особенно ярко UniCorn проявляет себя там, где нужно структурированное понимание: подсчет объектов, трехмерные расположения в пространстве. Плюс заметный шаг вперед на заданиях с знаниями — от культурных до научных.

На бенчмарке DPG, где проверяют генерацию сложных сцен с множеством объектов и их свойств, UniCorn обошел даже GPT-4o. А на свежем UniCycle фреймворк набрал почти на десять баллов больше базовой модели. Команда считает это доказательством, что связь между пониманием и генерацией реально крепнет, а не просто маскируется.

Внешний эксперт мало помогает

Авторы проверили, даст ли больше сильный внешний «судья». Подключили Qwen3-VL-235B — куда более крупную модель. Прогресс минимальный, а на UniCycle показатели даже просели.

Скорее всего, модель не справляется с сложными паттернами оценки от учителя. Самообучение на своих же суждениях работает эффективнее внешнего контроля — как минимум в этих экспериментах.

Отрицания и точный подсчет — ахиллесова пята

UniCorn не всесилен, признают авторы. На отрицаниях вроде «кровать без кошки» и точном подсчете объектов улучшений нет. Такие задания фундаментально трудны для мультимодальных моделей, и самообучение здесь не дает нужного надзора.

Процесс проходит всего один раз: сбор данных, обучение — и стоп. Итераций, где улучшенная модель собирает новые данные и шлифует себя дальше, пока нет. Это планируют добавить, чтобы понимание и генерация развивались параллельно.

Еще одна особенность: понимание изображений растет слабо, баллы на чистых тестах на распознавание почти не меняются. UniCorn в основном усиливает генерацию. Но и не разрушает понимание, как бывает при чистой тренировке на создание картинок без дополнительных форматов данных.