Arena выросла до $1,7 млрд на лидербордах ИИ

Arena из студенческого проекта в Беркли стал основным публичным лидербордом для передовых ИИ-моделей, повлияв на инвестиции и релизы, и достиг оценки $1,7 млрд за семь месяцев. Сооснователи Анастасиос Ангелопулос и Вэй-Лин Чянг объясняют, почему платформу сложно обмануть, как сохранить нейтральность при поддержке OpenAI, Google и Anthropic, и планы по тестам агентов и реальных задач.

Как Arena стал ключевым рейтингом передовых ИИ-моделей

Модели искусственного интеллекта появляются одна за другой, а борьба между разработчиками накаляется. В такой обстановке Arena, ранее известный как LM Arena, превратился в главный публичный лидерборд для самых продвинутых больших языковых моделей. Этот сервис напрямую влияет на привлечение инвестиций, сроки релизов и пиар-кампании.

За всего семь месяцев проект, начатый как докторская работа в Университете Калифорнии в Беркли, вырос до оценки в $1,7 миллиарда.

В подкасте Equity ведущая Ребекка Беллан пообщалась с сооснователями платформы Анастасиосом Ангелопулосом и Вэй-Лином Чянгом. Они рассказали, как Arena сделался стандартом для оценки топовых ИИ-моделей и почему команда стремится создать объективный бенчмарк, несмотря на инвестиции от таких гигантов, как OpenAI, Google и Anthropic.

Особенности работы Arena и преимущества перед статическими тестами

Сооснователи подробно объяснили принципы Arena. Этот лидерборд отличается от обычных статических бенчмарков тем, что его гораздо труднее подтасовать. Они обсудили вопросы воспроизводимости результатов и способы масштабирования системы.

Независимость при финансировании от участников рейтинга

Возникает логичный вопрос: сможет ли Arena сохранить независимость, принимая деньги от компаний, которые он оценивает? Команда говорит о концепции "структурной нейтральности", которая помогает избежать предвзятости.

Меры против мошенничества и разнообразие данных

В беседе затронули меры по борьбе с мошенничеством, предотвращению злоупотреблений и обеспечению разнообразия в оценках. Особо отметили, почему сейчас модель Claude лидирует в экспертных лидербордах по юридическим и медицинским сценариям.

Расширение функционала и планы развития

Arena развивает "рв данных" — уникальное преимущество в виде огромного набора информации. Платформа выходит за рамки чат-ботов: теперь тестируют агентов, задачи по программированию и реальные применения через новый корпоративный продукт.

Обсудили бенчмарки для агентов, экспертные рейтинги, планы по открытому релизу данных и то, как позиции в Arena влияют на эволюцию ИИ-разработок в целом.

Лидерборд для ИИ, который сложно обмануть, оценили в $1,7 млрд

Как Arena стал ключевым рейтингом передовых ИИ-моделей

Особенности работы Arena и преимущества перед статическими тестами

Независимость при финансировании от участников рейтинга

Меры против мошенничества и разнообразие данных

Расширение функционала и планы развития

Горячее

Тревожный сигнал: реальная цена ИИ от Google и Amazon

Alibaba запрещает сотрудникам использовать Claude Code

Последний экзамен человечества — отвлекающий манёвр?

Gemini Spark от Google теперь доступен на Mac

Anthropic представила Claude Science — ИИ-помощника для учёных

Сейчас в тренде