Как Arena стал ключевым рейтингом передовых ИИ-моделей
Модели искусственного интеллекта появляются одна за другой, а борьба между разработчиками накаляется. В такой обстановке Arena, ранее известный как LM Arena, превратился в главный публичный лидерборд для самых продвинутых больших языковых моделей. Этот сервис напрямую влияет на привлечение инвестиций, сроки релизов и пиар-кампании.
За всего семь месяцев проект, начатый как докторская работа в Университете Калифорнии в Беркли, вырос до оценки в $1,7 миллиарда.
В подкасте Equity ведущая Ребекка Беллан пообщалась с сооснователями платформы Анастасиосом Ангелопулосом и Вэй-Лином Чянгом. Они рассказали, как Arena сделался стандартом для оценки топовых ИИ-моделей и почему команда стремится создать объективный бенчмарк, несмотря на инвестиции от таких гигантов, как OpenAI, Google и Anthropic.
Особенности работы Arena и преимущества перед статическими тестами
Сооснователи подробно объяснили принципы Arena. Этот лидерборд отличается от обычных статических бенчмарков тем, что его гораздо труднее подтасовать. Они обсудили вопросы воспроизводимости результатов и способы масштабирования системы.
Независимость при финансировании от участников рейтинга
Возникает логичный вопрос: сможет ли Arena сохранить независимость, принимая деньги от компаний, которые он оценивает? Команда говорит о концепции "структурной нейтральности", которая помогает избежать предвзятости.
Меры против мошенничества и разнообразие данных
В беседе затронули меры по борьбе с мошенничеством, предотвращению злоупотреблений и обеспечению разнообразия в оценках. Особо отметили, почему сейчас модель Claude лидирует в экспертных лидербордах по юридическим и медицинским сценариям.
Расширение функционала и планы развития
Arena развивает "рв данных" — уникальное преимущество в виде огромного набора информации. Платформа выходит за рамки чат-ботов: теперь тестируют агентов, задачи по программированию и реальные применения через новый корпоративный продукт.
Обсудили бенчмарки для агентов, экспертные рейтинги, планы по открытому релизу данных и то, как позиции в Arena влияют на эволюцию ИИ-разработок в целом.