Суд требует от OpenAI миллионы логов ChatGPT для New York Times

Федеральный суд США обязал OpenAI предоставить New York Times 20 миллионов анонимизированных логов диалогов ChatGPT в рамках дела об авторском праве.
Федеральная судья Она Ван постановила, что OpenAI должен передать New York Times миллионы обезличенных записей разговоров пользователей с ChatGPT. Как сообщает Reuters, по оценке судьи, около 20 миллионов логов имеют значение для того, чтобы разобраться, допускала ли компания нарушения авторских прав, а также для проверки заявления OpenAI о том, что New York Times якобы манипулировала представленными доказательствами.
Сразу после оглашения решения OpenAI подала апелляцию. Представитель компании, ссылаясь на позицию директора по безопасности Дэйна Стаки (Dane Stuckey), заявил, что раскрытие этих логов игнорирует устоявшиеся стандарты конфиденциальности и противоречит типичным практикам кибербезопасности. Судья Ван отклонила эти возражения, подчеркнув, что в деле уже предусмотрено несколько уровней защиты именно потому, что данные относятся к чувствительным. По её мнению, предложенные OpenAI меры по очистке и защите информации достаточно компенсируют риски для приватности пользователей. Согласно решению суда, компания должна предоставить очищенный массив данных в течение семи дней.
Этот спор вписывается в более широкий ряд судебных процессов против технологических компаний, которых обвиняют в использовании защищённых авторским правом материалов без разрешения правообладателей для обучения генеративных моделей. В ходе разбирательства OpenAI утверждала, что 99,99 % запрошенных расшифровок диалогов не имеют отношения к предмету иска. Изначально New York Times требовала доступ к 120 миллионам логов, а OpenAI предлагала ограничиться 20 миллионами, оценивая срок их анонимизации примерно в 12 недель.
Как изменилось дело: добавлено решение суда
К материалу было добавлено обновление: суд уже принял промежуточное решение и обязал OpenAI раскрыть 20 миллионов логов. Возражения компании по поводу конфиденциальности суд не счёл достаточными и указал на наличие многоуровневых механизмов защиты данных в самом процессе.
Запрос New York Times: 20 миллионов приватных диалогов ChatGPT
Ещё до решения суда New York Times настаивала, чтобы OpenAI передала ей 20 миллионов приватных переписок пользователей с ChatGPT. По версии OpenAI, газете нужны эти данные, чтобы исследовать, использовали ли пользователи чат-бота для обхода платного доступа (paywall) на сайте издания. Компания публично заявила, что будет оспаривать этот запрос, называя его серьёзным вмешательством в личную жизнь пользователей, поскольку требуемый массив включает данные людей, не имеющих прямого отношения к иску.
В своём заявлении OpenAI подчёркивает, что требование NYT затрагивает пользовательский контент, который пользователи доверили сервису на определённых условиях. По мнению компании, запрос газеты выходит далеко за рамки необходимого для защиты предполагаемых прав и создаёт прецедент, когда частная переписка миллионов людей может стать объектом стороннего анализа.
Предыдущие требования NYT: хранить данные даже после удаления
Ранее New York Times уже требовала от OpenAI не удалять пользовательский контент, созданный через ChatGPT и API, а хранить его бессрочно для сохранения потенциальных доказательств. Это касалось и тех случаев, когда пользователи сознательно удаляли свои данные из сервиса.
Этот конфликт — фрагмент крупного иска, подача которого состоялась в конце 2023 года. В нём New York Times обвиняет OpenAI в том, что материалы издания использовались при обучении языковых моделей без согласия и компенсации. В числе ответчиков также фигурирует Microsoft как ключевой партнёр и инвестор OpenAI, чьи сервисы интегрируют те же модели.
Контекст: авторское право и обучающие датасеты ИИ
Иск New York Times — лишь один из примеров масштабной юридической борьбы вокруг генеративного ИИ. Издательства, писатели, художники и другие правообладатели всё чаще обвиняют разработчиков моделей в том, что их произведения попали в обучающие датасеты без лицензий.
Для компаний уровня OpenAI подобные дела критичны: итоговые решения могут определить, какие объёмы данных допустимо использовать для обучения моделей, какие формы согласия нужны, как долго можно хранить пользовательские логи и в каких случаях их разрешено передавать третьим сторонам, включая суды и истцов.
Краткий разбор ключевых пунктов спора
- Федеральный судья потребовала от OpenAI предоставить New York Times 20 миллионов анонимизированных логов ChatGPT в рамках дела об авторском праве, отклонив возражения компании по поводу конфиденциальности.
- Эти данные нужны суду и сторонам, чтобы оценить, как именно использовались материалы New York Times, могли ли они оказаться в обучающих наборах OpenAI и была ли манипуляция доказательствами.
- Конфликт стал частью широкой правовой дискуссии о том, как компании, создающие ИИ, используют защищённые авторским правом материалы и пользовательские данные без явного согласия владельцев.