LLM расшифровывают архивные рукописи лучше Transkribus

Архивариусы применяют большие языковые модели для распознавания рукописей в архивах, достигая ошибок ниже 2% против 8% у Transkribus и ускоряя процесс в 50 раз. Исследование Марка Хамфриса на 50 документах 18–19 веков подтверждает превосходство LLM по точности, скорости и стоимости. Archive Pearl и подобные инструменты демократизируют доступ к миллионам оцифрованных страниц.

Исследователь, просматривая личные журналы Белл Хукс в архиве колледжа Береа в Кентукки, рассчитывал заглянуть в её мысли до редактуры. Вместо этого столкнулся с трудностями: рукописный текст в виде плотного курсива с похожими петлями, а впереди годы записей. Пришлось фотографировать страницы и загружать их в ChatGPT для чтения. Инструмент справился успешно, и выяснилось, что это не первый подобный случай в архивах.

Задача научить компьютеры надёжно распознавать разнообразный человеческий почерк ставила в тупик специалистов по ИИ с первых дней этой области. В 1960-е годы эксперты предрекали, что машины вот-вот освоят чтение рукописей, но проблема породила десятилетия исследований и целые отрасли. Ян ЛеКун, позже удостоенный премии Тьюринга за вклад в глубокое обучение, в 1980-е опубликовал ключевые работы по распознаванию рукописных цифр, показавшие возможности в ограниченных условиях. Настоящие архивы требовали другого подхода.

Сейчас ситуация меняется. Универсальные модели ИИ ещё не идеальны для каждой рукописной страницы, но уже достаточно эффективны, чтобы преобразить работу архивов. Страницы, ранее требовавшие знаний палеографии, специального ПО или недель пристального изучения, теперь транскрибируются за секунды. Сохранённые, но практически недоступные коллекции становятся searchable, позволяя учёным и семьям задавать вопросы, на которые раньше не хватало времени или средств.

Масштабирование ИИ для расшифровки архивных рукописей

Марк Хамфрис десять лет боролся с проблемой масштаба. Профессор истории и координатор программы прикладного генеративного ИИ в Университете Уилфрида Лорье в Ватерлоо, провинция Онтарио, оцифровал 10 миллионов страниц записей пенсий Первой мировой войны в Канаде. Без индекса и стандартизации поиск конкретного пенсионера сводился к случайному просмотру файлов. Документы писали сотни разных клерков, офицеров и администраторов, что исключало стандартный метод — обучение модели на почерке одного человека.

С выходом GPT-4 от OpenAI в 2023 году Хамфрис начал тестировать его на рукописях. Результаты были сырыми, но превосходящими другие универсальные инструменты, и он решил проверить надёжность. Вместе с коллегами из Университета Уилфрида Лорье они два года проводили систематические тесты. Результаты, опубликованные в мае 2025 года в журнале Historical Methods, подтвердили его наблюдения. На корпусе из 50 англоязычных писем, юридических документов и дневниковых записей 18–19 веков большие языковые модели превзошли Transkribus — специализированное ПО для распознавания рукописи, применяемое более чем 150 крупными университетами и архивами — по точности, скорости и стоимости. На незнакомых документах Transkribus давал ошибку на уровне 8 процентов по символам. Лучший подход Хамфриса на базе LLM снизил её ниже 2 процентов, ускорив процесс в 50 раз и удешевив в 50 раз. Transkribus, в свою очередь, объявил об интеграции больших языковых моделей в свою платформу.

«Это именно то, о чём мы мечтали», — говорит Хамфрис.

У Хамфриса есть объяснение. В 2019 году исследователь ИИ Ричард Саттон утверждал, что универсальные методы, опирающиеся на вычисления, всегда в итоге обгонят специализированные. По мнению Хамфриса, сейчас это и происходит. Модели обучены на огромном массиве данных, где где-то усвоили связь между рукописными текстами и их расшифровками без прямого обучения.

Практические последствия уже проявляются. Льянн Ледди, доцент истории и обладательница Канадского исследовательского кресла по историям коренных народов и исторической практике, соавтор Хамфриса, прослеживает опыт коренных женщин Северной Америки по журналам торговых постов, баптистским записям и реестрам браков, разбросанным по архивам Канады. Эти записи в основном вели мужчины — клерки, священники, сотрудники постов, — редко уделявшие внимание окружающим коренным женщинам. Чтобы выявить истории, приходится просеивать тысячи документов в поисках единичных деталей. Имена женщин часто записывали фонетически, по-разному у французов, англичан и шотландцев, или просто как «жена кого-то». «Собрать такие истории традиционными методами заняло бы несколько карьер, — говорит Ледди. — А это меняет масштаб возможного».

ИИ-транскрипция в исторических архивах

Изменения уже затрагивают учреждения. В Университете Северной Каролины в Чапел-Хилл библиотекари тестируют ИИ-транскрипцию на материалах специальных коллекций, популярных у тех, кто ищет предков-рабов. Модели хорошо справляются с письмами и дневниками, а прорыв случился с бухгалтерскими книгами — они имеют табличную структуру, меняющуюся от страницы к странице, и долго были проблемными. «Gemini отлично работает с таблицами, — отметила Джеки Дин, одна из ведущих архивистов проекта. — Для наших задач это большой шаг вперёд».

Не только университеты обратили внимание. Федеральный резервный банк Филадельфии применяет большие языковые модели для извлечения данных из исторических регистраций транспортных средств и актов на собственность, ранее слишком дорогих и времязатратных для обработки в больших объёмах. Это открывает новые вопросы экономических исследований.

Benjamin Breen, историк из Университета Калифорнии в Санта-Крузе, разрабатывающий собственные ИИ-инструменты для исторических исследований, подчёркивает, кому это помогает больше всего. Обученные историки и так читают рукописи, так что ИИ дополняет их работу, но не революционизирует. Главные выгоды — для остальных: студентов-бакалавров и неспециалистов, занимающихся генеалогией. Кроме почерка, модели открывают тексты, недоступные по другим причинам. «Столько изданий на технической латыни и других архаичных формах, которые никто сейчас не читает, — говорит Брен. — Книги, на освоение которых ушла бы целая жизнь».

Эволюция ИИ в распознавании рукописей

Проблема компьютерного чтения человеческого почерка имеет долгую историю в ИИ. Когда Ян ЛеКун работал над ней в 1980-е, нейронные сети считались маргинальной идеей, и его не особо интересовал почерк — цель была компьютерное зрение, но компьютеры не тянули, данных не хватало. Почерк решался кое-как благодаря почтовым индексам и переписям. «Меня не особо волновало распознавание символов, — вспоминает он. — Просто были данные».

С тех пор прогресс огромен. Подход ЛеКуна начала 1990-х — нейросеть, читающая целую строку текста целиком, а не символ за символом, с последующим языковым моделированием — стал основой современных систем. ЛеКун считает задачу в целом решённой и перешёл к сложным вопросам машинного интеллекта в своём новом стартапе. Однако на периферии продолжается развитие, особенно для групп, работающих с трудными историческими документами. «Даже если улучшение только в скорости, оно всё равно открывает новое, — говорит он. — Но здесь больше: надёжность выше, чем раньше у людей».

Хамфрис из Университета Уилфрида Лорье фокусируется на надёжности. Он создаёт Archive Pearl — некоммерческий инструмент в бета-версии, позволяющий исследователям перетаскивать сотни страниц и получать чистые транскрипции за минуты, а не недели. Цель — сделать доступным для всех. «Это должно служить людям», — подчёркивает он.

Архивариусы используют LLM для расшифровки рукописей

Масштабирование ИИ для расшифровки архивных рукописей

ИИ-транскрипция в исторических архивах

Эволюция ИИ в распознавании рукописей

Горячее

Тревожный сигнал: реальная цена ИИ от Google и Amazon

Alibaba запрещает сотрудникам использовать Claude Code

Последний экзамен человечества — отвлекающий манёвр?

Gemini Spark от Google теперь доступен на Mac

Anthropic представила Claude Science — ИИ-помощника для учёных

Сейчас в тренде