Adobe под иском за пиратские книги в обучении SlimLM

Adobe, как и многие другие IT-компании, в последние годы активно развивает ИИ. С 2023 года фирма представила ряд сервисов на базе этой технологии, включая Firefly — инструментарий для создания медиаконтента с помощью ИИ. Теперь такая политика может привести к неприятностям: новый иск обвиняет компанию в использовании пиратских копий книг для обучения одной из моделей.

Коллективный иск от имени Элизабет Лион, писательницы из Орегона, утверждает, что Adobe применила нелегальные версии множества книг — в том числе её собственных — при подготовке модели SlimLM.

Компания называет SlimLM серией компактных языковых моделей, подходящих для поддержки работы с документами на смартфонах и планшетах. По официальным данным, SlimLM предобучена на наборе SlimPajama-627B — это очищенный от повторов открытый датасет из разных корпусов, подготовленный Cerebras в июне 2023 года. Лион, сочинившая несколько руководств по нон-фикшн, заявляет, что её тексты вошли в предтренировочный набор Adobe.

Об этом сообщило Reuters. В иске говорится, что работы Лион попали в переработанную версию изменённого датасета, послужившего основой для модели: «SlimPajama создали копированием и обработкой RedPajama (включая Books3)», — указано в документе. «SlimPajama как производная от RedPajama содержит Books3 с охраняемыми правами истца и представителей класса».

Коллекция «Books3» — это масштабный архив из 191 000 книг, задействованный в обучении генеративных ИИ. Он не раз вызывал судебные тяжбы в техсекторе. RedPajama тоже упоминается в исках. В сентябре дело против Apple обвинило фирму в использовании охраняемых текстов для Apple Intelligence — без согласия, оплаты или ссылок. В октябре аналогичный иск к Salesforce указал на тот же RedPajama.

В IT-секторе подобные претензии уже привычное дело. Модели ИИ учат на огромных объёмах данных, и иногда там всплывает пиратский контент. В сентябре Anthropic выплатила 1,5 миллиарда долларов авторам, требовавшим компенсацию за нелегальные копии их книг в обучении чат-бота Claude. Этот случай мог стать ориентиром в множестве споров о роли копирайта в данных для ИИ.

Иск против Adobe за пиратские книги в ИИ

Горячее

5 лёгких и безопасных альтернатив OpenClaw для ИИ-агентов

Claude Cowork уязвим к краже файлов

Знакомство со Stickerbox: ИИ для детских стикеров

Топ-7 планов для вайб-кодинга

Топ-5 API-провайдеров открытых ИИ-моделей

Сейчас в тренде