Представляем первую модель для контекстуализации античных надписей, созданную для помощи историкам в интерпретации, атрибуции и восстановлении фрагментарных текстов.
Письменность была повсеместно распространена в Римском мире — её наносили на всё: от имперских монументов до бытовых предметов. Политические граффити, любовные поэмы, эпитафии, деловые соглашения, приглашения на дни рождения и магические заклинания — надписи предоставляют современным историкам богатейший материал для понимания разнообразия повседневной жизни в Римской империи.
Часто эти тексты фрагментарны, повреждены временем или намеренно уничтожены. Их восстановление, датировка и локализация практически невозможны без контекстуальной информации, особенно при сравнении схожих надписей.
Сегодня мы публикуем в журнале Nature статью о Aeneas — первой модели искусственного интеллекта для контекстуализации античных надписей.
Как работает Aeneas
При работе с древними надписями историки традиционно полагаются на свою экспертизу и специализированные ресурсы для идентификации «параллелей» — текстов, имеющих сходства в формулировках, синтаксисе, стандартизированных формулах или происхождении.
Aeneas значительно ускоряет эту сложную и трудоёмкую работу. Модель анализирует тысячи латинских надписей, находя текстовые и контекстуальные параллели за секунды, что позволяет историкам интерпретировать и развивать выводы системы.
Наша модель также может быть адаптирована для других древних языков, письменностей и носителей — от папирусов до монет, расширяя её возможности для установления связей между более широким спектром исторических свидетельств.
Мы разрабатывали Aeneas совместно с Университетом Ноттингема в партнёрстве с исследователями из Уорикского университета, Оксфордского университета и Афинского университета экономики и бизнеса. Эта работа является частью более широких усилий по изучению того, как генеративный ИИ может помочь историкам лучше идентифицировать и интерпретировать параллели в масштабе.
Мы хотим, чтобы это исследование принесло пользу как можно большему числу людей, поэтому предоставляем интерактивную версию Aeneas бесплатно для исследователей, студентов, преподавателей, музейных специалистов и других на predictingthepast.com. Для поддержки дальнейших исследований мы также открываем исходный код и набор данных.
Продвинутые возможности системы
Названный в честь странствующего героя греко-римской мифологии, Aeneas развивает нашу предыдущую работу Ithaca по использованию ИИ для восстановления, датировки и локализации древнегреческих надписей.
Aeneas делает шаг вперёд, помогая историкам интерпретировать и контекстуализировать тексты, придавать значение изолированным фрагментам, делать более богатые выводы и собирать воедино лучшее понимание античной истории.
Продвинутые возможности нашей модели включают:
- Поиск параллелей: Система ищет параллели в обширной коллекции латинских надписей. Преобразуя каждый текст в своего рода исторический отпечаток, Aeneas идентифицирует глубинные связи, которые помогают историкам situate надписи в более широком историческом контексте
- Обработка мультимодальных данных: Aeneas является первой моделью, определяющей географическое происхождение текста с использованием мультимодальных входных данных. Она анализирует как текст, так и визуальную информацию, включая изображения надписи
- Восстановление пробелов неизвестной длины: Впервые Aeneas может восстанавливать пробелы в текстах, где длина отсутствующего фрагмента неизвестна. Это делает модель более универсальным инструментом для историков, работающих с сильно повреждёнными материалами
- Передовая производительность: Aeneas устанавливает новый эталонный показатель в восстановлении повреждённых текстов и предсказании времени и места их создания
Техническая архитектура
Aeneas представляет собой мультимодальную генеративную нейронную сеть, которая принимает на вход текст и изображение надписи. Для обучения Aeneas мы создали большой и надёжный набор данных, используя десятилетия работы историков по созданию цифровых коллекций, особенно Epigraphic Database Roma (EDR), Epigraphic Database Heidelberg (EDH) и Epigraphic Database Clauss Slaby (EDCS-ELT).
Мы очистили, унифицировали и связали эти записи в единый машиночитаемый набор данных, который мы называем Latin Epigraphic Dataset (LED), содержащий более 176 000 латинских надписей со всего древнего Римского мира.
Наша модель использует трансформерный декодер для обработки текстового ввода надписи. Специализированные сети обрабатывают восстановление символов и датировку с использованием текста, в то время как географическая атрибуция также использует изображения надписей в качестве входных данных. Декодер извлекает похожие надписи из LED, ранжируя их по релевантности.
Для каждой надписи механизм контекстуализации Aeneas извлекает список параллелей с использованием техники «эмбеддингов» — кодируя текстовую и контекстуальную информацию каждой надписи в своего рода исторический отпечаток, содержащий детали того, что говорит текст, его язык, когда и откуда он произошёл, и как он relates к другим надписям.
Производительность системы
Aeneas группирует надписи по дате написания гораздо чётче, чем другие универсальные модели, также обученные на латинских текстах.
Aeneas восстанавливает повреждённые надписи с точностью Top-20 в 73% для пробелов длиной до десяти символов. Эта точность снижается только до 58%, когда длина восстановления неизвестна — что само по себе является невероятно сложной задачей. Модель также показывает свои рассуждения интерпретируемым образом, предоставляя карты значимости, которые highlight, какие части входных данных повлияли на её предсказания. Благодаря использованию визуальных данных, наша модель может атрибутировать надпись к одной из 62 древних римских провинций с точностью 72%. Для датирования Aeneas помещает текст в пределах 13 лет от диапазонов дат, предоставленных историками.
Новый взгляд на исторические дебаты
Чтобы проверить возможности Aeneas в ongoing исследовательских дебатах, мы дали ему одну из самых известных римских надписей: Res Gestae Divi Augusti, персональный отчёт императора Августа о своих достижениях.
Историки давно спорят о датировке этой надписи. Вместо предсказания единственной фиксированной даты, Aeneas произвёл детальное распределение возможных дат, показав два distinct пика: один меньший пик вокруг 10-1 гг. до н.э. и больший, более уверенный пик между 10-20 гг. н.э. Эти результаты captured обе преобладающие гипотезы датирования количественным способом.
Aeneas основывал свои предсказания на subtle лингвистических особенностях и исторических маркерах, таких как официальные титулы и monuments, упомянутые в тексте. Превращая вопрос датирования в probabilistic оценку, основанную на лингвистических и контекстуальных данных, наша модель предлагает новый, количественный способ engagement с longstanding историческими дебатами.
Что наиболее важно, Aeneas также извлёк множество relevant параллелей из имперских юридических текстов, связанных с наследием Августа, highlighting, как идеология империи воспроизводилась across медиа и географии.
Совместное продвижение исторических исследований
Для оценки impact Aeneas как инструмента исследования мы провели масштабное исследование сотрудничества историков и ИИ. Мы пригласили двадцать три историка, регулярно работающих с надписями, чтобы восстановить, датировать и локализовать набор текстов с использованием Aeneas.
Наша оценка показывает, что наиболее эффективные результаты были достигнуты, когда историки использовали контекстуальную информацию Aeneas вместе с его предсказаниями для восстановления и атрибуции римских надписей.
Aeneas помог историкам в нашем исследовании идентифицировать новые параллели и увеличил их уверенность при решении сложных эпиграфических задач. Историки consistently highlighted ценность Aeneas в ускорении их работы и расширении диапазона наиболее relevant параллельных надписей.
Параллели Aeneas completely изменили моё восприятие надписи. Система заметила детали, которые имели решающее значение для восстановления и хронологической атрибуции текста.
Распространение инструментов и формирование будущего
Aeneas разработан для интеграции в существующие рабочие процессы историков. Комбинируя экспертные знания с машинным обучением, он открывает collaborative процесс, предлагая интерпретируемые suggestions, которые служат ценными отправными точками для исторического inquiry.
В рамках сегодняшнего релиза мы обновляем Ithaca, нашу модель для древнегреческого языка, чтобы она работала на основе Aeneas и включала функцию контекстуализации, восстановления неизвестной длины и улучшенную производительность в целом.
Мы также совместно разработали новую учебную программу для объединения технических навыков с историческим мышлением в классе. Эта программа соответствует инициативам AI грамотности, включая Digital Competences Framework for Citizens (DigComp 2.2) Европейской комиссии, AI Competency Framework for Students ЮНЕСКО и превью AILit Framework Европейской комиссии и Организации экономического сотрудничества и развития (ОЭСР).
Команда Aeneas продолжает партнёрство с разнообразными экспертами в предметной области, используя Aeneas для пролития света на наше древнее прошлое — и это только начало.