Несколько лет назад люди явно превосходили алгоритмы машинного обучения в задачах вроде перевода текстов. Сейчас эти различия стираются.
В свежем исследовании способности нескольких больших языковых моделей сравнили с работой профессиональных переводчиков. Оказалось, что только сертифицированные специалисты с опытом от 10 лет заметно опережают модели. В отдельных аспектах перевода модели даже показали лучшие результаты.
За последние два десятилетия алгоритмы машинного обучения сильно изменились, а новейшие большие языковые модели сделали особенно большой шаг вперед. Насколько хорошо они справляются с переводом?
Раньше звучали заявления о паритете с человеком, но они вызывали споры. Исследователи решили провести точное сравнение производительности моделей с разными уровнями профессиональных переводчиков — от начинающих до экспертов.
Как большие языковые модели сравниваются с переводчиками?
В исследовании начинающих переводчиков определили как специалистов с 1–2 годами опыта в отрасли. Средний уровень — 3–5 лет опыта или носители целевого языка. Эксперты — минимум 10 лет стажа плюс престижная сертификация China Accreditation Test for Translators and Interpreters (CATTI), национальный стандарт Китая для переводчиков.
Переводчикам и моделям вроде GPT-4, ALMA-R и Deepseek-R1 поручили перевести одни и те же фрагменты текста. Шесть профессиональных оценщиков проверяли качество переводов вслепую, не зная, кто автор — человек или модель.
Группы переводили между популярными парами языков, такими как английский и китайский, а также редкими комбинациями вроде китайского и хинди.
Результаты показали, что GPT-4 работает на уровне начинающих и средних переводчиков. Это, вероятно, впервые в истории алгоритм достиг человеческого качества перевода.
При переводе блоков текста примерно по 200 предложений для восьми пар языков GPT-4 допустила в среднем 3,71 серьезной ошибки. Начинающие переводчики — 3,27, средние — 3,30. Эксперты выдали лучшие переводы с 1,83 ошибкой в среднем. Ошибки чаще случались у всех при работе с редкими языковыми парами, такими как китайский на хинди.
Однако типы ошибок у людей и моделей различались. Модели иногда переводили слишком буквально, а люди, напротив, слишком творчески заполняли пробелы в неясных или неоднозначных фразах. Например, один переводчик неверно истолковал выражение «entering his second year» как речь о двухлетнем ребенке, хотя фраза описывала спортсмена второго года обучения. Это одновременно сильная и слабая сторона человеческих переводчиков.
Переводчики чаще ошибались из-за излишней интерпретации, чем модели. Но та же способность глубоко учитывать контекст помогла экспертам точно передать нюансы сложных отрывков.
Для задач, где нужна высокая точность, культурная адаптация или творческая интерпретация — например, в литературе, — эксперты-переводчики пока необходимы. Впрочем, есть признаки изменений. DeepSeek R1, модель с сильным мышлением, особенно хорошо избегала серьезных ошибок. Это намекает, что модели с развитым рассуждением, такие как OpenAI o1, GPT-5 или DeepSeek v 3.2, могут сократить разрыв с экспертами.