Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Гильдия авторов протестировала ИИ-детекторы: кто справился, а кто поставил антирекорд

Гильдия авторов протестировала популярные ИИ-детекторы на статьях, написанных до эпохи генеративных нейросетей. Инструменты Pangram и Grammarly безошибочно определили человеческое авторство, а Sidekicker пометил все тексты как сгенерированные. Организация предупреждает, что даже лучшие детекторы не могут быть единственным критерием оценки из-за риска ложных обвинений.

вчера
5 мин
5

Тест Гильдии: ИИ-детекторы ищут машинный след в текстах, написанных до ChatGPT

Гильдия авторов (Authors Guild) — старейшее и крупнейшее профессиональное объединение писателей в США — провела показательное тестирование популярных сервисов для выявления сгенерированного текста. Для чистоты эксперимента взяли десять статей, опубликованных на сайте гильдии в 2020–2022 годах, когда массовые генеративные нейросети ещё не появились. Результаты оказались полярными: системы Pangram и Grammarly безошибочно определили все тексты как человеческие, а Sidekicker — провалила проверку, выставив каждой работе высокий процент «искусственности».

Материал ГильдииZeroGPTOriginality.aiSidekicker.aiGrammarlyPangram
Obscenity Petitions Dismissed14.3%0.0%85.0%0.0%0.0%
Antitrust Litigation & Publications5.3%0.0%100.0%0.0%0.0%
Warhol Fair Use Letter40.7%0.0%79.0%0.0%0.0%
Copyright Claims Board28.1%0.0%96.0%0.0%0.0%
Banned Books Club64.5%1.0%71.0%0.0%0.0%
Kiss Library Piracy Lawsuit26.5%1.0%71.0%7.0%0.0%
Obituary: Joan Didion66.0%0.0%82.0%9.0%0.0%
Erdrich Pulitzer Prize76.3%0.0%100.0%0.0%0.0%
Support Authors & Literary Arts50.6%0.0%92.0%0.0%0.0%
The Roundup 12/202018.1%0.0%96.0%0.0%0.0%

Печальный рекорд поставил сервис Sidekicker: каждый из десяти материалов он классифицировал как сгенерированный «преимущественно ИИ», а для двух статей выдал максимальную оценку в 100% машинного происхождения. Схожая нестабильность проявилась и у ZeroGPT — инструмент упорно приписывал сугубо авторским работам двузначные, а иногда и трёхзначные проценты якобы искусственного вмешательства. На этом фоне результаты Originality.ai, Grammarly и Pangram выглядят почти безупречно, за исключением пары незначительных всплесков у двух последних.

Цена ошибки: как ложноположительные срабатывания стоят авторам контрактов

Несмотря на обнадёживающие цифры лидеров, Гильдия авторов предостерегает от чрезмерного доверия к любым детекторам. Организация настаивает: ни один подобный инструмент не должен служить единственным основанием для принятия решений. Алгоритмы постоянно обновляются, и стабильность их точности нельзя воспринимать как данность.

Глава Pangram Макс Сперо в недавнем разговоре сравнил свой детектор с чёрным ящиком — объяснить, почему конкретный текст получил ту или иную метку, детально невозможно. Однако языковые модели склонны к предсказуемому однообразию, особенно когда выстраивают аргументы. У человека-автора диапазон стилистических и структурных приёмов заметно богаче.

Парадокс в том, что профессиональная проза — выверенная, лаконичная, точная — часто демонстрирует те же статистические закономерности, что и результат работы больших языковых моделей. И это неудивительно: обучали их именно на подобных образцах. Ложноположительный вердикт ИИ-детектора может стоить автору контракта и репутации, поэтому издателям, по мнению Гильдии, необходимо раскрывать методику проверки и обязательно оставлять писателю возможность оспорить обвинение.

Складывается тревожный парадокс. Писатель, десятилетиями оттачивавший ясность, экономию средств и точность, по определению пишет так, что его манера пересекается с тем, чему обучили ИИ. Инструменты детекции неспособны отличить мастера слова от машины, которая научилась ему подражать, — на том уровне, на котором работают эти системы, разницы может почти не существовать.

Гильдия авторов

Важный нюанс: то, что Pangram и Originality.ai стабильно распознают человеческие тексты, ещё не доказывает, что они так же успешно выявляют работы, созданные нейросетью или с её помощью. Результаты теста прежде всего свидетельствуют о том, что эти сервисы нацелены на минимизацию ложных срабатываний — они редко «обвиняют» живого автора в использовании ИИ. При этом значительная часть написанного машиной может проскакивать незамеченной. Продемонстрированная в эксперименте надёжность касается в первую очередь корректного опознания человеческого письма.

Культурная подоплёка детекции: социальный контракт между автором и читателем

Ошибки неизбежны, и это постоянный повод для дискуссий о целесообразности таких инструментов. Особенно с учётом того, что ИИ способен быть полезным помощником в литературной работе, а публичные споры часто смешивают понятия «писать с помощью ИИ» и «думать с помощью ИИ».

Сторонники жёсткой детекции, в частности Макс Сперо, обосновывают существование подобного бизнеса через идею социального контракта между тем, кто создаёт текст, и тем, кто его читает. Писатель инвестирует время и силы, чтобы оформить мысль; читатель тратит собственное время, чтобы с ней соприкоснуться. Если искусственный интеллект сводит затраты на производство текста к нулю, возникают уродливые стимулы: интернет заполоняет мусорный контент, на потребление которого аудитория тратит куда больше минут, чем автор — на его генерацию.

Другой вопрос — в чём именно заключена ценность написанного: в механическом наборе слов или же в выборе темы, идее, ракурсе, истории, исследовании, аргументации и авторском суждении. И способны ли вообще детекторы ИИ-текста хоть как-то противостоять этому потоку бесполезного контента — тема для отдельного размышления.