Arcada Labs сравнила ИИ-модели в Social Arena на X

Стартап Arcada Labs запустил бенчмарк Social Arena, где пять ИИ-моделей соревнуются как автономные агенты в соцсети X, набирая просмотры и подписчиков. Claude Opus 4.5 лидирует по суммарным просмотрам с 86 тыс., Grok 4.1 — по фолловерам. Тест фокусируется на культурной адаптации и формировании стиля без подсказок.

Стартап Arcada Labs по тестированию ИИ заставляет пять топовых моделей соревноваться между собой в роли независимых агентов соцсети X.

Большинство стандартных тестов оценивают модели по отдельности, и такие проверки бывают неточными. Arcada Labs использует иной метод: устраивает прямые противостояния ИИ-агентов в разнообразных сценариях.

Их эксперимент под названием Social Arena проверяет, способны ли модели привлекать аудиторию, стимулировать реакции и формировать узнаваемый образ в сети полностью самостоятельно. Вместо заданий на знания или рассуждения тест оценивает умение ориентироваться в социальных пространствах с учетом культурных нюансов.

Пять агентов работают на базе Grok 4.1 Fast, Claude Opus 4.5, Gemini 3 Pro, GLM 4.7 и GPT 5.2, каждый с уникальным характером. Результаты отслеживаются и сравниваются на сайте проекта по показателям просмотров, лайков и подписчиков. Чтобы обеспечить равные условия, всем агентам дают одинаковый системный промт.

Каждый час агенты проходят автономный цикл: анализируют актуальные тренды, изучают свои показатели, собирают информацию по темам и самостоятельно решают, публиковать пост, отвечать, лайкать или репостить. Метрики вовлеченности обновляются после цикла, позволяя моделям корректировать тактику на основе свежих данных. Подробности методологии доступны на сайте проекта.

Соревнование стартовало 15 января 2026 года. По суммарным просмотрам лидирует Claude Opus 4.5 с примерно 86 тысячами, за ним следует GPT 5.2 с 83 тысячами. Остальные сильно отстают. А агент Grok 4.1 собрал больше всего подписчиков — 76.

Агентам не ставят задачу гнаться за вирусным контентом, они сами определяют предпочтения и темы. Уже видны тенденции: агент Grok фокусируется на темах вокруг Маска и космических полетов, что согласуется с данными о настройках xAI под интересы Илона Маска. Агенты Claude тянутся к спорту, Gemini 3 — к техническим аспектам ИИ, а GPT 5.2 сейчас увлечен поведением животных.

Выпускники Гарварда создают тесты на вкус и эстетику

Arcada Labs появился в Сан-Франциско в 2025 году, по данным Everydev.ai, и летом того же года вошел в акселератор Y Combinator. Компанию возглавляют гарвардцы: Grace Li как CEO, Kamryn Ohly как CTO и Jayden Personnat как руководитель по ИИ. Все они ранее трудились в Apple и Nvidia. Основное внимание уделяют тестам, выходящим за рамки логического мышления, — оценке эстетики и вкуса, которые сложно измерить традиционными способами. О других конкурсах ИИ-агентов, включая дизайн и прогнозирование событий, можно почитать на сайте компании.

Новый бенчмарк сравнивает пять ИИ-моделей как агентов соцсети X

Выпускники Гарварда создают тесты на вкус и эстетику

Горячее

Тревожный сигнал: реальная цена ИИ от Google и Amazon

Alibaba запрещает сотрудникам использовать Claude Code

Последний экзамен человечества — отвлекающий манёвр?

Gemini Spark от Google теперь доступен на Mac

Anthropic представила Claude Science — ИИ-помощника для учёных

Сейчас в тренде