Энциклопедия Britannica и ее дочерняя компания Merriam-Webster подали иск против OpenAI в федеральный суд Манхэттена.
В жалобе утверждается, что OpenAI без разрешения взяла почти 100 тысяч онлайн-статей, энциклопедических статей и определений из словаря для обучения ИИ-моделей, пишет Reuters. Иногда ChatGPT выдает почти точные копии материалов Britannica, что уводит посетителей с сайтов издателя.
Britannica обвиняет OpenAI в нарушении товарных знаков: чат-бот якобы создает видимость одобрения со стороны энциклопедии и ссылается на нее в неверных ответах ИИ. Компания требует возмещения ущерба и судебного запрета.
Жалоба подчеркивает: GPT-4 "запомнил" значительную часть контента Britannica, защищенного авторским правом, и способен выдать целые разделы почти дословно по запросу.
GPT-4 сам "запомнил" большую часть контента Britannica, защищенного авторским правом, и выдает почти дословные копии значительных фрагментов по требованию. Эти запомненные примеры — несанкционированные копии, которые ответчики использовали для обучения моделей, включая GPT-4.
Извлечение из жалобы
Суды по-разному решают, хранят ли ИИ-модели охраняемый контент
Вопрос, сохраняют ли ИИ-модели охраняемые авторским правом материалы в параметрах и считается ли это копированием, вызывает разногласия в судах. В деле GEMA против OpenAI мюнхенский суд постановил, что тексты песен встроены в веса моделей GPT-4 и GPT-4o — это уже нарушение прав на воспроизведение.
Веса модели — это числовые параметры, которые ИИ осваивает на этапе обучения и которые формируют его ответы. Мюнхенский суд счел достаточным саму возможность извлечения материала из весов для удовлетворения требований о запрете и компенсации.
Высокий суд Великобритании в деле Getty Images против Stability AI решил иначе: веса ИИ-модели не содержат и не воспроизводят охраняемые произведения, поэтому это не "нарушающая копия". Судья отметил, что параметры фиксируют только общие закономерности, а не оригинальные тексты.
Исследователи из Stanford и Yale наглядно показали проблему: им удалось извлечь из топовых ИИ-моделей целые книги почти слово в слово.