
Авторы демонстрируют систему на датасете, который пока мало освещался, — расписание Чемпионата мира по футболу 2026 года. На основе расписания и городов‑организаторов система генерирует статью, посвящённую климату, с интерактивной картой.
Около четырёх из десяти матчей запланированы в местах, которые профсоюз игроков FIFPRO классифицирует как зоны экстремально высокого теплового риска, причём основным фактором выступает влажность, а не температура воздуха. Авторы подчёркивают, что это типичные климатические условия, а не прогноз на сам турнир.

Панель «Инспектор» делает каждое утверждение отслеживаемым
Ключевая особенность системы — панель «Инспектор», показывающая структурированные доказательства для каждого предложения и элемента. Каждое аннотированное предложение, график и интерактивный элемент получает собственную карточку, в которой отображается либо точная строка кода (вместе с файлом данных), либо внешняя ссылка, подтверждающая утверждение.

Это позволяет проверить происхождение 93% всех видимых утверждений. Исследователи подчёркивают, что это не гарантирует их корректность, а лишь возможность верификации. Сомневаетесь в цифре? Запустите код. Для сравнения, у статей, написанных людьми, этот показатель составляет 25%, отчасти потому, что журналисты редко публикуют аналитический код. Разрыв отражает как пробел в журналистской практике, так и преимущество системы, утверждают исследователи.
Семь агентов и единый редакционный процесс
За каждой статьёй стоит цепочка из семи специализированных агентов, которую команда называет «виртуальной редакцией». «Детектив» занимается поиском контекста в интернете, поскольку одной таблицы редко бывает достаточно. Для данных о Чемпионате мира он связывает города‑организаторы с рейтингами теплового риска FIFPRO и климатическими данными Open-Meteo.
«Аналитик» выполняет код, вместо того чтобы угадывать числа. «Редактор» выбирает, какие находки станут основой повествования. «Дизайнер» подбирает подходящий формат — например, карту для географии или аудиоклип для музыки. «Программист» собирает HTML-страницу, «Аудитор» проверяет вёрстку на ошибки, а «Инспектор» связывает всё с источниками.

Базовая модель — Claude Opus 4.7, работающая в Claude Code. Для изображений, видео и аудио система использует модели через OpenRouter, такие как gpt-5.4-image-2, seedance-2.0 и lyria-3-pro-preview.
53 читателя оценили статьи агента выше, чем оригиналы людей
Исследователи подобрали 18 публичных датасетов и сопоставили их с созданными людьми оригиналами из трёх источников: лаконичные брифинги The Economist, богато оформленные лонгриды The Pudding и датасеты сообщества TidyTuesday. 53 приглашённых читателя оценили обе версии по пяти критериям: визуальный дизайн, ритм повествования, прозрачность данных, проверяемость утверждений и полезность инсайтов.
Data2Story выиграла по всем пяти категориям. Наибольший отрыв был в прозрачности: +1,49 по семибалльной шкале. В целом 74% предпочли статью агента, 25% — человеческую версию, а 2% назвали ничью.
При разбивке по источникам картина меняется. Агент очевидно выиграл у The Pudding и TidyTuesday, но с The Economist отрыв оказался менее заметным.

Когда измеряли, какие утверждения из написанной человеком статьи также встречаются в статье агента, Data2Story покрывает около половины. И наоборот, только 35% утверждений агента присутствуют в тексте человека.
Агент добавляет множество собственных ракурсов, но лишь частично улавливает редакционную суть. Разрыв особенно велик в коротких шаблонных брифингах Economist, где агент воспроизводит 73% выводов человека, вероятно потому, что эти тексты близко следуют стандартным статистикам, которые агент и так вычисляет.
Где люди всё ещё выигрывают
Исследователи выделяют три области, в которых авторы‑люди остаются впереди. Что касается редакционной перспективы, репортёры объясняют то, что не могут показать данные. Отчёт о Repair Cafe связывает низкий уровень ремонта с тем, что производители телефонов, автомобилей и тракторов намеренно блокируют доступ к диагностическим инструментам и запчастям. Это теория, основанная на реальных репортажах, а не на данных. Агент показывает, что ломается, но «почему» остаётся за кадром.

В творческом дизайне материал The Pudding о стендап‑комедии превращает полную расшифровку шоу Али Вонг в пользовательский интерфейс. Рядом с каждой репликой расположен кружок, размер которого соответствует длине смеха. Для того же контента агент просто вставляет статичную миниатюру с YouTube.

В сложных единых графиках визуализация Economist о космической гонке объединяет государственных и коммерческих провайдеров, показатели успешности и аннотации в одно изображение. Агент же разбрасывает те же данные по нескольким графикам, и главная мысль теряется.

Сотрудник, а не замена
Авторы позиционируют Data2Story как инструмент для редакций. Люди привносят перспективу и репортаж, а агенты берут на себя вычисления, графику и машинную проверяемость источников.
Наибольшую пользу система может принести в темах, которые редакции не могут освещать из‑за нехватки ресурсов, — нишевые датасеты, которые иначе никогда не стали бы читаемой историей. Одно из ограничений — Data2Story пока работает полностью на автопилоте. Версия с участием человека в цикле обратной связи оставлена для будущих работ. Сайт доступен по адресу data2story.github.io, а код — на GitHub.
Машинная проверяемость — именно та область, где современные ИИ‑системы часто спотыкаются. Недавний бенчмарк Пекинского университета показал, что ведущие модели нередко дают правильный ответ при анализе документов, но ссылаются на неверные источники; эту проблему исследователи называют «атрибуционной галлюцинацией».
Другое исследование предполагает, что ИИ‑поисковые агенты часто не исследуют, а в основном подтверждают то, что уже знают из обучения. Data2Story пытается закрыть этот пробел, заставляя аналитика вычислять показатели с помощью исполняемого кода, а не догадок, и связывая каждое утверждение с источником через Инспектора. Perplexity применяет похожий подход с «Search as Code», где модели сами пишут поисковые запросы вместо вызова чёрного ящика API.