RealChart2Code: ИИ теряют 50% на сложных графиках

Бенчмарк RealChart2Code проверил 14 ведущих ИИ-моделей на сложных визуализациях из реальных наборов данных. Даже топовые закрытые модели теряют почти половину производительности по сравнению с простыми тестами.

ИИ-модели без проблем воссоздают простые графики по изображениям. Однако с многокомпонентными визуализациями на базе настоящих данных даже самые сильные модели сталкиваются с трудностями. К такому выводу пришли создатели RealChart2Code — нового бенчмарка от исследователей нескольких китайских университетов.

Комикс в трёх панелях: пользователь просит ИИ воссоздать сложный график, но получает результат с неверной структурой. — ИИ-модель пытается воссоздать сложный график, но выдаёт неверную структуру.

Бенчмарк содержит свыше 2800 тестовых случаев, построенных на реальных данных из Kaggle. Предыдущие тесты вроде Plot2Code и ChartMimic опирались в основном на синтетические данные и простые одиночные графики. RealChart2Code усложняет задачу: здесь сложные составные макеты, 50 типов графиков и большие сырые файлы. Исследователи использовали 1036 отобранных наборов данных с общим объёмом около 860 миллионов строк.

Три задания для проверки разных навыков

RealChart2Code оценивает модели по трём заданиям. В «Chart Replication» модель должна создать код визуализации только по изображению. «Chart Reproduction» подключает сырые данные, чтобы проверить генерацию кода из реальных источников. Третье задание «Chart Refinement» моделирует типичный процесс разработки: модель берёт некорректный код и исправляет его в диалоге с пользователем.

Диаграмма с тремя типами заданий бенчмарка: воссоздание графика по изображению (Replication), создание по изображению и сырым данным (Reproduction), исправление кода в диалоге (Refinement). — RealChart2Code проверяет ИИ-модели на трёх заданиях: воссоздание графика по изображению (Replication), построение по изображению и сырым данным (Reproduction), исправление сломанного кода в диалоге (Refinement).

По данным авторов, RealChart2Code — первый бенчмарк, который системно оценивает генерацию кода из больших сырых наборов данных и итеративное дорабатывание в разговорном формате.

Три радар-чарта с оценками моделей по заданиям Replication, Reproduction и Refinement по восьми критериям. — Радар-чарты демонстрируют оценки топовых моделей по восьми критериям точности. Claude 4.5 Opus и Gemini 3 Pro Preview лидируют, открытые модели отстают почти по всем параметрам.

Закрытые модели впереди, но далеки от идеала

Исследователи протестировали 14 моделей: пять закрытых и девять открытых. Среди закрытых лучшим средним баллом 8,2 (по шкале из восьми критериев визуальной точности) отметился Claude 4.5 Opus от Anthropic. Gemini 3 Pro Preview от Google отстал чуть-чуть с 8,1 и лидирует в базовом воссоздании графиков с 9,0. GPT-5.1 от OpenAI сильно уступил с 5,4.

Точечная диаграмма: производительность моделей на старых бенчмарках против RealChart2Code, все точки ниже диагонали равной производительности. — Все протестированные модели сильно отстают от диагонали, обозначающей равную эффективность на простых и сложных бенчмарках. Открытые модели падают особенно резко на RealChart2Code.

Открытые модели показали гораздо худшие результаты. Лидеры Qwen3-VL-235B и Intern-VL-3.5-241B набрали всего 3,6 и 3,4 — меньше половины от показателей закрытых фаворитов. Одна из самых маленьких моделей DeepSeek-VL-7B достигла уровня прохождения всего 9,7% на воссоздании графиков, то есть сгенерированный код даже не запускался в более чем 90% случаев.

Главный вывод статьи — «пробел сложности»: модели, преуспевающие на простых бенчмарках, проваливаются на RealChart2Code. Например, Gemini 3 Pro Preview набирает свыше 96% (нормализованно) на ChartMimic, но падает до примерно 50% на новом тесте. У открытых моделей обвал ещё круче: Qwen3-VL-235B показывает около 85% на ChartMimic, но менее 25% на RealChart2Code.

Открытые модели выдумывают библиотеки, закрытые путают данные

Анализ ошибок выявил два разных паттерна сбоев. Открытые модели вроде Qwen3-VL и InternVL чаще всего ломаются на этапе выполнения кода: они придумывают несуществующие библиотеки или вызывают недопустимые функции.

Например, Qwen3-VL-235B генерирует неверные вызовы API, такие как несуществующий параметр стиля Matplotlib, примерно в 20% случаев. Если код запускается, возникают проблемы с расположением: наложение подграфиков или разрушенные сетки.

Сравнение сложного эталонного графика из девяти частей с медицинскими данными и версией от ИИ с наложенными метками и элементами. — Эталонный график сверху, версия от ИИ снизу. Модель правильно воспроизводит отдельные подграфики, но ошибается в пространственном расположении: текст и элементы накладываются.

Закрытые модели вроде Claude 4.5 и GPT-5.1 почти не допускают синтаксических ошибок. Их проблема — назначение данных: визуальная структура верна, но серии данных попадают не на те оси, или атрибуты вроде цветов не соответствуют заданным.

Итеративное дорабатывание тоже даётся тяжело. Авторы описывают паттерн «регрессивного редактирования»: при исправлении одной ошибки модели часто ломают ранее правильные части кода. Даже лучшие модели не справляются с балансом локальных правок и общей согласованности кода, подчёркивают исследователи.

Автоматическая оценка соответствует мнению экспертов

Для подсчёта баллов применяется многоагентная система, которая оценивает сгенерированные визуализации по трёхбалльной шкале по восьми критериям: тип графика, пространственное расположение, текстовые элементы, настройка осей, цветовая схема и другие.

Автоматические оценки совпадают с суждениями человеческих экспертов при коэффициенте Коэна 0,83, что говорит о сильной корреляции. Согласованность между агентами достигла коэффициента Флисса 0,82.

Исследователи отмечают, что бенчмарк пока ограничен библиотекой Matplotlib, а автоматическая оценка может упускать тонкие визуальные дефекты вроде лёгкого наложения элементов или нюансов цвета. Бенчмарк и код доступны на GitHub и Hugging Face.

Проект Google PaperBanana ранее показал, насколько сложны для ИИ-генераторов изображений продвинутые визуализации. Пять специализированных ИИ-агентов совместно создают научные графики по текстовым описаниям. Точность визуализации достигает 45,8% по сравнению с человеческим эталоном, но рецензенты предпочли результаты простому генерированию изображений в почти 73% случаев. Для статистических графиков PaperBanana тоже использует генерацию кода на Matplotlib, чтобы повысить числовую точность.

Лучшие ИИ-модели теряют половину эффективности на сложных графиках

Три задания для проверки разных навыков

Закрытые модели впереди, но далеки от идеала

Открытые модели выдумывают библиотеки, закрытые путают данные

Автоматическая оценка соответствует мнению экспертов

Горячее

Возможности OpenCode + Ollama + Qwen3-Coder локально

Краткий курс по ComfyUI для новичков

Amazon раздаёт Kiro Pro+ стартапам, чтобы раскачать ИИ для кодинга

5 открытых ИИ-моделей для редактирования изображений

Генератор видео ChatUp AI без цензуры: ключевые возможности

Сейчас в тренде