Статьи, принятые на ведущих конференциях по ИИ, включают вымышленные цитаты, не ссылающиеся на настоящие публикации. Новый инструмент под названием CiteAudit впервые предлагает системный подход к решению этой задачи.
Такие несуществующие ссылки выглядят очень правдоподобно: языковые модели умело смешивают заголовки, имена авторов и названия конференций, создавая полную иллюзию достоверности. При этом списки литературы за годы сильно разрослись, так что ручная проверка для рецензентов и соавторов стала практически невозможной.
Если утверждение в статье подкреплено источником, которого нет в природе, то вся логическая цепочка разрушается. Рецензенты теряют возможность проследить аргументацию, соавторы невольно рискуют своей репутацией, а воспроизводимость исследований страдает. По словам ученых, подобные инциденты подрывают сразу несколько этапов научной работы.
Текущие средства проверки цитат работают с ограничениями. Разработчики обнаружили, что они часто дают сбои из-за различий в форматировании реальных данных о публикациях, а вдобавок большинство из них закрытые, что исключает честное сравнение или самостоятельную оценку.
Почти 10 000 цитат испытывают детекторы на прочность
Чтобы устранить эти пробелы, авторы представляют CiteAudit — первый полноценный открытый бенчмарк и систему обнаружения галлюцинированных ссылок. В наборе данных 6475 подлинных и 2967 поддельных цитат.
Тестовый набор сгенерированных фейков получен от моделей вроде GPT, Gemini, Claude, Qwen и Llama. Набор реальных примеров взят из фактических галлюцинаций, обнаруженных в статьях на Google Scholar, OpenReview, ArXiv и BioRxiv.
Ученые детально классифицировали виды галлюцинаций — от незаметной замены слов в заголовках и вымышленных списков авторов до несуществующих названий конференций и придуманных DOI.
Пять узкоспециализированных агентов превосходят единую модель
CiteAudit превращает проверку цитат в многоступенчатый процесс с участием пяти специализированных ИИ-агентов. Сначала агент-экстрактор анализирует PDF и извлекает библиографические данные: заголовок, авторов, конференцию. Агент-память сверяет их с уже проверенными цитатами, чтобы избежать повторений.
При отсутствии совпадений агент веб-поиска обращается к Google Search API и загружает полные тексты пяти наиболее релевантных результатов. Агент-судья проводит посимвольное сравнение данных цитаты из статьи с полученными материалами. Только при неясном исходе подключается агент-ученый, который ищет в авторитетных базах вроде Google Scholar. Все задачи рассуждения выполняются на локальной модели Qwen3-VL-235B.
Коммерческие языковые модели не справляются с проблемой, которую сами породили
В контролируемых лабораторных тестах коммерческие модели показывают неплохие результаты: GPT-5.2 обнаруживает около 91 процента всех подделок, не отвергая ни одной из 3586 настоящих ссылок. CiteAudit находит все 2500 фальшивок, но ошибочно помечает 167 подлинных как галлюцинации.
Настоящий разрыв проявляется при проверке реальных галлюцинаций из опубликованных статей. GPT-5.2 ловит около 78 процентов из 467 фейковых цитат, но при этом отвергает 1380 из 2889 легитимных. GPTZero дает 1358 ложных срабатываний на настоящие ссылки. Gemini 3 Pro реже ошибается в плюс, но пропускает 116 из 467 подделок.
CiteAudit определяет все 467 фальшивок и отвергает лишь 100 из 2889 настоящих. В целом система правильно классифицирует 97,2 процента всех цитат. Она обрабатывает десять ссылок за 2,3 секунды и — благодаря локальному запуску — не тратит токены.
Во время экспериментов выяснилось, что закрытые модели не проводят отслеживаемые внешние поиски, даже если их прямо просят. Источник их внутренних документов остается непрозрачным.
Авторы открыли доступ к CiteAudit через веб-приложение. После регистрации по email можно проверять до 500 цитат в день бесплатно. Для больших объемов подключается собственный ключ Gemini API.
Галлюцинированные цитаты уже проникают на ведущие конференции
Предыдущие исследования подтвердили масштаб проблемы. Вымышленные ссылки встречались в рецензируемых статьях на крупных мероприятиях вроде NeurIPS и ACL. Анализ от GPTZero выявил более 50 таких случаев только в подачках на ICLR 2026.
Отдельное расследование Newsguard в январе показало: коммерческие ИИ плохо распознают свои же артефакты в других сферах. Ведущие чатботы вроде ChatGPT, Gemini и Grok в большинстве случаев не определили видео от Sora компании OpenAI как искусственные. Вместо признания ограничений модели давали уверенные неверные выводы и даже придумывали новостные источники в поддержку фальшивых событий.