В недельном эксперименте Anthropic агенты Claude покупали и продавали вещи для коллег. Более мощные модели добились лучших условий. Ключевой момент: обладатели слабых агентов даже не поняли, что оказались в минусе.
В декабре 2025 года Anthropic организовала рынок объявлений под кодовым названием «Project Deal» для 69 сотрудников сан-францисского офиса. Процесс полностью проходил в Slack, где агенты Claude вели все переговоры и оформляли сделки.
Каждому участнику выдали бюджет в $100. Перед стартом Claude кратко опросил каждого, чтобы узнать, что продавать, за какую цену, что покупать и какой стиль ведения переговоров предпочесть. На основе ответов компания создала индивидуальный системный промт для каждого агента.
Дальше агенты работали автономно: публиковали объявления, искали контрагентов, предлагали цены, спорили и завершали сделки без участия людей. Участники вмешивались только в финале, чтобы обменяться реальными предметами — от сноуборда до пакета шариков для пинг-понга.
Сила модели незаметно смещает баланс рынка
Главный вопрос исследования скрывался в параллельном тесте, о котором участники узнали позже. Anthropic одновременно запустила четыре версии рынка. В двух все агенты использовали Claude Opus 4.5 — флагманскую модель компании на тот момент. В остальных двух у каждого участника был 50-процентный шанс получить Claude Haiku 4.5 — самую компактную модель. В любом случае общение шло только между ИИ-агентами.

В чистом запуске с Opus все 69 агентов заключили 186 сделок по более чем 500 объявлениям, переместив товары на сумму свыше $4000. Участники оценили справедливость сделок в среднем на 4 из 7 баллов — ровно посередине шкалы.
Смешанные запуски выявили разрыв. Пользователи Opus в среднем закрыли на две сделки больше, чем с Haiku. Если один и тот же товар продавался через Opus и через Haiku, первая модель выручала в среднем на $3,64 дороже.
Например, лабораторный рубин ушёл за $65 с Opus, но всего за $35 с Haiku. Агент Opus стартовал с $60 и поднялся за счёт конкуренции, а Haiku начал с $40 и уступил в торге.

Среди 161 товара, проданного минимум в двух из четырёх запусков, продавец с Opus получал в среднем на $2,68 больше, а покупатель с Opus платил на $2,45 меньше. Когда продавец Opus встречался с покупателем Haiku, средняя цена достигала $24,18 против $18,63 в сделках Opus против Opus. С медианой $12 и средним чеком $20,05 по всем тестам Anthropic подчёркивает: разница ощутимая.
Инструкции по переговорам, которые давали участники, почти не влияли на исход. Одни просили дружелюбный тон, другие — жёсткий подход вроде «торгуйся агрессивно и стартуй с низкой цены». Жёсткие продавцы получали больше только потому, что изначально запрашивали выше, отмечает компания.
Обладатели слабых агентов не заподозрили подвоха
Несмотря на разницу в ценах, оценки справедливости от пользователей Haiku почти не отличались от Opus: 4,06 против 4,05. Удовлетворённость отдельными сделками тоже не имела статистически значимого расхождения. Среди 28 участников, протестировавших обе модели в разных запусках, 17 выбрали Opus, но 11 предпочли Haiku.
Anthropic назвала это неудобным выводом: в реальных рынках агенты разной силы могут ставить людей в невыгодное положение, и те даже не догадаются. Компания признаёт, что тест не копал глубоко в эти механизмы, и нужны дополнительные исследования.
Эксперимент показывает: коммерция с ИИ-агентами уже близко. 46 процентов участников готовы платить за такую услугу. Однако Anthropic предупреждает об опасностях. В сценарии с компаниями вместо волонтёров стимулы сильно изменятся. Борьба за внимание ИИ-агентов может стать мощным рычагом, не всегда полезным людям. Появятся новые уязвимости вроде взлома и инъекций промтов для агентов, действующих от имени пользователей.
«Правовые рамки для ИИ-моделей, совершающих сделки за нас, ещё не созданы», — пишет Anthropic, призывая общество действовать оперативно. «Усилит ли это экономическое неравенство или даже усугубит?»
Ранее Anthropic проводила похожие тесты. В рамках Project Vend Claude управлял маленьким магазином прямо в офисе компании.