Пять ИИ-агентов совместно создают диаграммы для научных статей. PaperBanana опережает базовые генераторы изображений, хотя и допускает ошибки в деталях.
Специалисты из Пекинского университета и Google Cloud AI Research разработали платформу для автоматической генерации научных иллюстраций. Фреймворк PaperBanana, построенный на базе Nano Banana от Google, задействует пять ИИ-агентов, чтобы из текстовых описаний методов получать диаграммы, готовые к печати в журналах.
Оформление визуальных материалов для исследований до сих пор требует много ручной работы — это один из немногих этапов, где автоматизация отстаёт. ИИ уже ускоряет поиск источников, разработку гипотез и проведение опытов, но создание графиков остаётся трудоёмким. Большинство учёных не владеют профильными программами для дизайна.
Распределение задач между агентами
PaperBanana разбивает процесс на этапы, где каждый агент отвечает за свою часть. Первый агент подбирает в справочной базе похожие примеры диаграмм в качестве основы. Второй переводит описание метода из научной работы в точный текстовый сценарий для изображения. Третий дорабатывает его, опираясь на свод правил эстетики, которые система вычленила из материалов конференций NeurIPS.
Четвёртый агент формирует само изображение через генеративную модель. Пятый проводит контроль качества: выявляет дефекты и предлагает корректировки. Такой цикл генерации с последующей критикой проходит трижды, прежде чем выдаётся финальный результат.
С графиками вроде столбчатых или линейных система действует иначе: вместо картинок она пишет код на Python для библиотеки Matplotlib. Так обеспечивается точность цифр, в чём генераторы изображений часто подводят.
Диаграммы ИИ предпочитают люди
Разработчики собрали тестовый набор из 292 случаев на основе публикаций NeurIPS 2025, оценив диаграммы по точности содержания, лаконичности, удобству чтения и внешнему виду.
PaperBanana показал превосходство над простыми генераторами изображений по всем параметрам. Самый заметный прогресс в лаконичности — на 37,2 процента. Читаемость выросла на 12,9 процента, эстетика — на 6,6 процента, точность содержания — на 2,8 процента. Эксперты-оценщики отдавали предпочтение результатам PaperBanana почти в 73 процентах случаев.
Однако есть явные ограничения. Точность содержания достигла лишь 45,8 процента — ниже 50-процентного уровня человеческих эталонов. Чаще всего встречаются неточности вроде смещённых соединительных линий или стрелки, указывающей не туда. Даже агент-критик их пропускает, поскольку языковые модели пока плохо распознают такие визуальные проблемы.
Проблемы с редактированием
Ключевой минус: PaperBanana выдаёт растровые изображения вместо векторных, удобных для доработки. Авторы советуют генерировать в 4K-разрешении для качественной печати.
В перспективе подойдут модели обработки изображений для мелких правок. Более сложный вариант — конвейер реконструкции с распознаванием текста и сегментацией, чтобы вытащить редактируемые элементы. Самый смелый план — агент, самостоятельно управляющий векторными редакторами вроде Adobe Illustrator.
Часть иллюстраций в их статье тоже получилась через PaperBanana. Для практики советуют запускать несколько вариантов и отбирать лучший вручную.
Улучшение готовых диаграмм от людей
Автоматически составленные правила эстетики полезны и для апгрейда существующих рисунков. В экспериментах доработанные версии побеждали оригиналы по внешнему виду в 56,2 процентах оценок.
Авторы замечают универсальный приём: поиск референсов учит модель форме диаграммы, а обобщение стиля — её виду. Такой разбор содержания и оформления может сработать для интерфейсов или технических чертежей.
Компании вкладываются в инструменты для науки. Недавно OpenAI представила Prism — редактор LaTeX с интеграцией GPT 5.2. При этом эксперты опасаются, что ИИ спровоцирует лавину скоропалительных публикаций.
Генерация иллюстраций ИИ пробовали и раньше, но неудачи быстро всплывали из-за несостыковок в изображении и нечитабельного текста. Яркий случай — статья 2024 года, где пришлось отозвать работу из-за кривой схемы с крысой, сгенерированной ИИ.
PaperBanana недоступна для тестов, так как работает на закрытых моделях Google Gemini-3-Pro и Nano-Banana-Pro. Дополнительные примеры есть на странице проекта.