Anthropic: Claude Opus выигрывает торги на $3+

Anthropic провела эксперимент Project Deal, где агенты Claude торговали для сотрудников: модели Opus 4.5 выигрывали на $2-3 за сделку по сравнению с Haiku 4.5. Участники с слабыми агентами оценили公平ность так же высоко и не заметили потерь. Тест поднимает вопросы о рисках ИИ-коммерции и неравенстве.

В недельном эксперименте Anthropic агенты Claude покупали и продавали вещи для коллег. Более мощные модели добились лучших условий. Ключевой момент: обладатели слабых агентов даже не поняли, что оказались в минусе.

В декабре 2025 года Anthropic организовала рынок объявлений под кодовым названием «Project Deal» для 69 сотрудников сан-францисского офиса. Процесс полностью проходил в Slack, где агенты Claude вели все переговоры и оформляли сделки.

Каждому участнику выдали бюджет в $100. Перед стартом Claude кратко опросил каждого, чтобы узнать, что продавать, за какую цену, что покупать и какой стиль ведения переговоров предпочесть. На основе ответов компания создала индивидуальный системный промт для каждого агента.

Дальше агенты работали автономно: публиковали объявления, искали контрагентов, предлагали цены, спорили и завершали сделки без участия людей. Участники вмешивались только в финале, чтобы обменяться реальными предметами — от сноуборда до пакета шариков для пинг-понга.

Сила модели незаметно смещает баланс рынка

Главный вопрос исследования скрывался в параллельном тесте, о котором участники узнали позже. Anthropic одновременно запустила четыре версии рынка. В двух все агенты использовали Claude Opus 4.5 — флагманскую модель компании на тот момент. В остальных двух у каждого участника был 50-процентный шанс получить Claude Haiku 4.5 — самую компактную модель. В любом случае общение шло только между ИИ-агентами.

Схема эксперимента «Project Deal»: инструктаж от человека, автономные переговоры ИИ в четырёх параллельных каналах Slack, личный обмен предметами в конце. — В тесте Anthropic «Project Deal» агенты ИИ полностью вели переговоры и покупки в параллельных Slack-каналах после короткого брифинга от людей. Участники вернулись лишь для физического обмена. Изображение: Anthropic

В чистом запуске с Opus все 69 агентов заключили 186 сделок по более чем 500 объявлениям, переместив товары на сумму свыше $4000. Участники оценили справедливость сделок в среднем на 4 из 7 баллов — ровно посередине шкалы.

Смешанные запуски выявили разрыв. Пользователи Opus в среднем закрыли на две сделки больше, чем с Haiku. Если один и тот же товар продавался через Opus и через Haiku, первая модель выручала в среднем на $3,64 дороже.

Например, лабораторный рубин ушёл за $65 с Opus, но всего за $35 с Haiku. Агент Opus стартовал с $60 и поднялся за счёт конкуренции, а Haiku начал с $40 и уступил в торге.

Сравнение: сломанный складной велосипед от одного продавца одному покупателю — Claude Opus выручил $65, Haiku всего $38, разница $27. — Один и тот же сломанный складной велосипед, один продавец, один покупатель: Opus взял $65, Haiku — $38. Изображение: Anthropic

Среди 161 товара, проданного минимум в двух из четырёх запусков, продавец с Opus получал в среднем на $2,68 больше, а покупатель с Opus платил на $2,45 меньше. Когда продавец Opus встречался с покупателем Haiku, средняя цена достигала $24,18 против $18,63 в сделках Opus против Opus. С медианой $12 и средним чеком $20,05 по всем тестам Anthropic подчёркивает: разница ощутимая.

Инструкции по переговорам, которые давали участники, почти не влияли на исход. Одни просили дружелюбный тон, другие — жёсткий подход вроде «торгуйся агрессивно и стартуй с низкой цены». Жёсткие продавцы получали больше только потому, что изначально запрашивали выше, отмечает компания.

Обладатели слабых агентов не заподозрили подвоха

Несмотря на разницу в ценах, оценки справедливости от пользователей Haiku почти не отличались от Opus: 4,06 против 4,05. Удовлетворённость отдельными сделками тоже не имела статистически значимого расхождения. Среди 28 участников, протестировавших обе модели в разных запусках, 17 выбрали Opus, но 11 предпочли Haiku.

Anthropic назвала это неудобным выводом: в реальных рынках агенты разной силы могут ставить людей в невыгодное положение, и те даже не догадаются. Компания признаёт, что тест не копал глубоко в эти механизмы, и нужны дополнительные исследования.

Эксперимент показывает: коммерция с ИИ-агентами уже близко. 46 процентов участников готовы платить за такую услугу. Однако Anthropic предупреждает об опасностях. В сценарии с компаниями вместо волонтёров стимулы сильно изменятся. Борьба за внимание ИИ-агентов может стать мощным рычагом, не всегда полезным людям. Появятся новые уязвимости вроде взлома и инъекций промтов для агентов, действующих от имени пользователей.

«Правовые рамки для ИИ-моделей, совершающих сделки за нас, ещё не созданы», — пишет Anthropic, призывая общество действовать оперативно. «Усилит ли это экономическое неравенство или даже усугубит?»

Ранее Anthropic проводила похожие тесты. В рамках Project Vend Claude управлял маленьким магазином прямо в офисе компании.

Anthropic: мощные ИИ-модели выигрывают торги, слабые проигрывают тайно

Сила модели незаметно смещает баланс рынка

Обладатели слабых агентов не заподозрили подвоха

Горячее

7 лучших альтернатив Claude Code для агентного кодинга в CLI

Anthropic запустила Opus 5: более дешёвая и мощная ИИ-модель

OpenAI добавила голосовое управление в ChatGPT для ПК

Runway запустила Media Router — ИИ-роутер для генеративных медиа

Anthropic добавила Opus и Sonnet в голосовой режим Claude

Сейчас в тренде