Anthropic выявила крупномасштабные атаки дистилляции на модель Claude со стороны китайских ИИ-лабораторий Deepseek, Moonshot и MiniMax. В этом подходе менее мощная модель перенимает знания сильной, анализируя её ответы. Через 24 тысячи поддельных аккаунтов поступило свыше 16 миллионов запросов, направленных на способности Claude к рассуждениям, программированию и работе с инструментами. Разработчики применили прокси-сервисы, чтобы обойти ограничения доступа из Китая.
| Лаборатория | Запросов | Цели |
|---|---|---|
| Deepseek | 150 000+ | Извлечение шагов рассуждений, данных модели вознаграждения для обучения с подкреплением, ответы, соответствующие цензуре на политически чувствительные темы |
| Moonshot AI | 3,4 миллиона+ | Агентное рассуждение, использование инструментов, программирование, анализ данных, компьютерное зрение, реконструкция мыслительных процессов Claude |
| MiniMax | 13 миллионов+ | Агентное программирование, использование и оркестрация инструментов; переход на новую модель Claude за 24 часа |
Deepseek сосредоточилась на цепочке рассуждений Claude, выкачивая мыслительные процессы и ответы, проходящие цензуру на деликатные темы. MiniMax организовала самую обширную кампанию с 13 миллионами запросов. Как отмечает Anthropic, после выхода обновлённой модели MiniMax за сутки переключилась и направила почти половину трафика на свежую версию.
OpenAI и Google фиксировали похожие попытки со стороны китайских лабораторий. Anthropic предлагает индустрии и регуляторам организовать совместный отпор.