Бенчмарк RealChart2Code проверил 14 ведущих ИИ-моделей на сложных визуализациях из реальных наборов данных. Даже топовые закрытые модели теряют почти половину производительности по сравнению с простыми тестами.
ИИ-модели без проблем воссоздают простые графики по изображениям. Однако с многокомпонентными визуализациями на базе настоящих данных даже самые сильные модели сталкиваются с трудностями. К такому выводу пришли создатели RealChart2Code — нового бенчмарка от исследователей нескольких китайских университетов.

Бенчмарк содержит свыше 2800 тестовых случаев, построенных на реальных данных из Kaggle. Предыдущие тесты вроде Plot2Code и ChartMimic опирались в основном на синтетические данные и простые одиночные графики. RealChart2Code усложняет задачу: здесь сложные составные макеты, 50 типов графиков и большие сырые файлы. Исследователи использовали 1036 отобранных наборов данных с общим объёмом около 860 миллионов строк.
Три задания для проверки разных навыков
RealChart2Code оценивает модели по трём заданиям. В «Chart Replication» модель должна создать код визуализации только по изображению. «Chart Reproduction» подключает сырые данные, чтобы проверить генерацию кода из реальных источников. Третье задание «Chart Refinement» моделирует типичный процесс разработки: модель берёт некорректный код и исправляет его в диалоге с пользователем.

По данным авторов, RealChart2Code — первый бенчмарк, который системно оценивает генерацию кода из больших сырых наборов данных и итеративное дорабатывание в разговорном формате.

Закрытые модели впереди, но далеки от идеала
Исследователи протестировали 14 моделей: пять закрытых и девять открытых. Среди закрытых лучшим средним баллом 8,2 (по шкале из восьми критериев визуальной точности) отметился Claude 4.5 Opus от Anthropic. Gemini 3 Pro Preview от Google отстал чуть-чуть с 8,1 и лидирует в базовом воссоздании графиков с 9,0. GPT-5.1 от OpenAI сильно уступил с 5,4.

Открытые модели показали гораздо худшие результаты. Лидеры Qwen3-VL-235B и Intern-VL-3.5-241B набрали всего 3,6 и 3,4 — меньше половины от показателей закрытых фаворитов. Одна из самых маленьких моделей DeepSeek-VL-7B достигла уровня прохождения всего 9,7% на воссоздании графиков, то есть сгенерированный код даже не запускался в более чем 90% случаев.
Главный вывод статьи — «пробел сложности»: модели, преуспевающие на простых бенчмарках, проваливаются на RealChart2Code. Например, Gemini 3 Pro Preview набирает свыше 96% (нормализованно) на ChartMimic, но падает до примерно 50% на новом тесте. У открытых моделей обвал ещё круче: Qwen3-VL-235B показывает около 85% на ChartMimic, но менее 25% на RealChart2Code.
Открытые модели выдумывают библиотеки, закрытые путают данные
Анализ ошибок выявил два разных паттерна сбоев. Открытые модели вроде Qwen3-VL и InternVL чаще всего ломаются на этапе выполнения кода: они придумывают несуществующие библиотеки или вызывают недопустимые функции.
Например, Qwen3-VL-235B генерирует неверные вызовы API, такие как несуществующий параметр стиля Matplotlib, примерно в 20% случаев. Если код запускается, возникают проблемы с расположением: наложение подграфиков или разрушенные сетки.

Закрытые модели вроде Claude 4.5 и GPT-5.1 почти не допускают синтаксических ошибок. Их проблема — назначение данных: визуальная структура верна, но серии данных попадают не на те оси, или атрибуты вроде цветов не соответствуют заданным.
Итеративное дорабатывание тоже даётся тяжело. Авторы описывают паттерн «регрессивного редактирования»: при исправлении одной ошибки модели часто ломают ранее правильные части кода. Даже лучшие модели не справляются с балансом локальных правок и общей согласованности кода, подчёркивают исследователи.
Автоматическая оценка соответствует мнению экспертов
Для подсчёта баллов применяется многоагентная система, которая оценивает сгенерированные визуализации по трёхбалльной шкале по восьми критериям: тип графика, пространственное расположение, текстовые элементы, настройка осей, цветовая схема и другие.
Автоматические оценки совпадают с суждениями человеческих экспертов при коэффициенте Коэна 0,83, что говорит о сильной корреляции. Согласованность между агентами достигла коэффициента Флисса 0,82.
Исследователи отмечают, что бенчмарк пока ограничен библиотекой Matplotlib, а автоматическая оценка может упускать тонкие визуальные дефекты вроде лёгкого наложения элементов или нюансов цвета. Бенчмарк и код доступны на GitHub и Hugging Face.
Проект Google PaperBanana ранее показал, насколько сложны для ИИ-генераторов изображений продвинутые визуализации. Пять специализированных ИИ-агентов совместно создают научные графики по текстовым описаниям. Точность визуализации достигает 45,8% по сравнению с человеческим эталоном, но рецензенты предпочли результаты простому генерированию изображений в почти 73% случаев. Для статистических графиков PaperBanana тоже использует генерацию кода на Matplotlib, чтобы повысить числовую точность.