Руководство Википедии по распознаванию текстов ИИ

Редакторы Википедии разработали эффективное руководство по выявлению текстов, созданных ИИ, в рамках Проекта по очистке от ИИ. Документ описывает характерные признаки, такие как общие формулировки о значимости, детализация мелких упоминаний и маркетинговый стиль. Это помогает понять, как модели отражают данные из интернета, и может повлиять на будущие подходы к контенту.

Многие сталкиваются с ощущением, что прочитанный материал создан большой языковой моделью, однако подтвердить это предположение оказывается весьма непросто. Несколько месяцев назад широкая общественность уверилась, что отдельные слова вроде «погрузиться» или «подчеркнуть» позволяют разоблачить такие тексты, но доказательства оказались слабыми, а по мере совершенствования моделей подобные индикаторы стали труднее отслеживать.

Как выяснилось, редакторы Википедии накопили значительный опыт в выявлении текстов, сгенерированных ИИ, и их общедоступное руководство по «Признакам письма от ИИ» представляет собой наиболее полезный ресурс для проверки обоснованности подобных подозрений. (Благодарность поэту Джеймсону Фицпатрику, который привлек внимание к этому документу в X.)

С 2023 года редакторы Википедии занимаются контролем за вкладами, созданными с помощью ИИ, в рамках инициативы, известной как Проект по очистке от ИИ. Учитывая, что ежедневно поступают миллионы правок, имеется обширный материал для анализа, и в типичной манере редакторов Википедии коллектив подготовил подробное руководство, насыщенное примерами и доказательствами.

Руководство подтверждает известные факты: автоматизированные инструменты для обнаружения практически бесполезны. Вместо этого акцент сделан на характерных привычках и оборотах речи, которые редко встречаются в Википедии, но широко распространены в интернете в целом (и, следовательно, в данных для обучения моделей). Как отмечает документ, материалы от ИИ часто уделяют много внимания обоснованию значимости темы, используя общие формулировки вроде «переломный момент» или «широкое движение». Кроме того, модели склонны подробно описывать незначительные упоминания в СМИ, чтобы подчеркнуть заметность субъекта — это типично для личных биографий, но не для независимых источников.

Документ выделяет любопытную особенность: завершение предложений неопределенными утверждениями о важности с помощью придаточных конструкций. Модели формулируют, что какое-то событие или деталь «подчеркивает значимость» чего-либо или «отражает продолжающуюся актуальность» общей концепции. (Для знатоков грамматики это соответствует «причастию настоящего времени».) Трудно дать точное определение, но после освоения навыка такие конструкции бросаются в глаза повсеместно.

Еще одна черта — склонность к расплывчатому маркетинговому стилю, который повсеместен в сети. Пейзажи неизменно живописны, виды поражают воображение, а все вокруг чистое и современное. По словам редакторов, «это больше напоминает сценарий телевизионной рекламы».

Руководство заслуживает внимательного изучения целиком, и оно производит сильное впечатление. Ранее можно было предположить, что проза от больших языковых моделей эволюционирует слишком быстро, чтобы ее надежно идентифицировать. Однако отмеченные привычки глубоко укоренены в процессах обучения и применения ИИ. Их можно замаскировать, но полностью избавиться от них будет сложно. Если широкая публика освоит методы распознавания текстов от ИИ, это может привести к разнообразным значимым последствиям.

Лучшее руководство по распознаванию ИИ-текстов из Википедии

Горячее