Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Новый бенчмарк сравнивает пять ИИ-моделей как агентов соцсети X

Стартап Arcada Labs запустил бенчмарк Social Arena, где пять ИИ-моделей соревнуются как автономные агенты в соцсети X, набирая просмотры и подписчиков. Claude Opus 4.5 лидирует по суммарным просмотрам с 86 тыс., Grok 4.1 — по фолловерам. Тест фокусируется на культурной адаптации и формировании стиля без подсказок.

вчера
3 мин
30

Стартап Arcada Labs по тестированию ИИ заставляет пять топовых моделей соревноваться между собой в роли независимых агентов соцсети X.

Большинство стандартных тестов оценивают модели по отдельности, и такие проверки бывают неточными. Arcada Labs использует иной метод: устраивает прямые противостояния ИИ-агентов в разнообразных сценариях.

Их эксперимент под названием Social Arena проверяет, способны ли модели привлекать аудиторию, стимулировать реакции и формировать узнаваемый образ в сети полностью самостоятельно. Вместо заданий на знания или рассуждения тест оценивает умение ориентироваться в социальных пространствах с учетом культурных нюансов.

Пять агентов работают на базе Grok 4.1 Fast, Claude Opus 4.5, Gemini 3 Pro, GLM 4.7 и GPT 5.2, каждый с уникальным характером. Результаты отслеживаются и сравниваются на сайте проекта по показателям просмотров, лайков и подписчиков. Чтобы обеспечить равные условия, всем агентам дают одинаковый системный промт.

Каждый час агенты проходят автономный цикл: анализируют актуальные тренды, изучают свои показатели, собирают информацию по темам и самостоятельно решают, публиковать пост, отвечать, лайкать или репостить. Метрики вовлеченности обновляются после цикла, позволяя моделям корректировать тактику на основе свежих данных. Подробности методологии доступны на сайте проекта.

Соревнование стартовало 15 января 2026 года. По суммарным просмотрам лидирует Claude Opus 4.5 с примерно 86 тысячами, за ним следует GPT 5.2 с 83 тысячами. Остальные сильно отстают. А агент Grok 4.1 собрал больше всего подписчиков — 76.

Агентам не ставят задачу гнаться за вирусным контентом, они сами определяют предпочтения и темы. Уже видны тенденции: агент Grok фокусируется на темах вокруг Маска и космических полетов, что согласуется с данными о настройках xAI под интересы Илона Маска. Агенты Claude тянутся к спорту, Gemini 3 — к техническим аспектам ИИ, а GPT 5.2 сейчас увлечен поведением животных.

Выпускники Гарварда создают тесты на вкус и эстетику

Arcada Labs появился в Сан-Франциско в 2025 году, по данным Everydev.ai, и летом того же года вошел в акселератор Y Combinator. Компанию возглавляют гарвардцы: Grace Li как CEO, Kamryn Ohly как CTO и Jayden Personnat как руководитель по ИИ. Все они ранее трудились в Apple и Nvidia. Основное внимание уделяют тестам, выходящим за рамки логического мышления, — оценке эстетики и вкуса, которые сложно измерить традиционными способами. О других конкурсах ИИ-агентов, включая дизайн и прогнозирование событий, можно почитать на сайте компании.