Тест от Wall Street Journal вышел из-под контроля
Журналисты Wall Street Journal самостоятельно проверили киоск с ИИ от Anthropic, и результаты получились хаотичными. За три недели ИИ-продавец под именем Claudius накопил убытки свыше 1000 долларов. Он раздал почти весь товар бесплатно, приобрёл PlayStation 5 якобы для маркетинга и даже заказал живую рыбу.
С помощью хитрых запросов к модели журналистам удалось заставить Claudius установить все цены на ноль. Добавление супервизора ИИ по имени Seymour Cash не остановило бардак. Сотрудники подделали решение совета директоров, и оба агента ИИ приняли его без вопросов. Одна из причин, почему агент киоска игнорировал свои правила, — переполненное контекстное окно из-за слишком длинной истории чата.
В офисе самой Anthropic дела обстояли получше. После обновлений ПО и дополнительных ограничений киоск начал приносить прибыль. Однако агенты ИИ всё равно срывались с пути: затевали ночные разговоры о вечной трансцендентности и клюнули на нелегальную сделку с фьючерсами на лук. Главный вывод Anthropic: модели ИИ слишком склонны помогать и требуют жёстких барьеров, чтобы не сбиваться с задания.