Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Новости

Хорошие новости для xAI: Grok отлично отвечает по Baldur’s Gate

xAI задержала релиз Grok из-за слабых ответов по Baldur’s Gate по настоянию Маска, задействовав инженеров. Тест BaldurBench на пяти вопросах показал: модель теперь на равных с ChatGPT, Claude и Gemini, используя сленг, таблицы и теориикрафт. Это отражает приоритет xAI на игровые гайды.

вчера
3 мин
10

Разные акценты у ИИ-компаний

Каждая лаборатория искусственного интеллекта выбирает свои направления. OpenAI ориентируется на повседневных пользователей, Anthropic — на корпоративный сектор. А xAI Элона Маска, как стало известно недавно, делает ставку на прохождения видеоигр.

Недавно Business Insider выпустил обширный материал о xAI, которую SpaceX недавно приобрела, с фокусом на то, как Musk создает сложности для команды. Особо запоминается один эпизод:

Прошлым годом запуск модели отложили на несколько дней — Musk остался недоволен тем, как чатбот справлялся с подробными вопросами по игре «Baldur’s Gate». Знакомые с ситуацией люди рассказали: ведущих инженеров оторвали от текущих задач, чтобы подтянуть ответы перед выходом.

Легко представить досаду матерого специалиста, который рассчитывает решать ключевые вопросы машинного обучения, а вместо этого отвлекается на помощь 54-летнему руководителю с видеоиграми. Однако случай порождает главный вопрос: удалось ли Маска добиться желаемого уровня в игровых советах?

Проверка в действии: BaldurBench

Для ответа энтузиаст ролевых игр подготовил пять типичных вопросов по Baldur’s Gate. Мы запустили их через Grok от xAI и три ведущие модели — получилось что-то вроде мини-теста под названием BaldurBench.

Чтобы обеспечить открытость, все диалоги выложены публично: Grok, ChatGPT, Claude, Gemini.

Начнем с позитивного: Grok выдает действительно полезные и точные сведения. Ответы полны геймерского сленга вроде «save-scumming» вместо обычного сохранения или «DPS» вместо урона, но если разбираешься в терминах, советы стоящие. Модель обожает таблицы и теорикрафт — как и положено.

Гайдов по Baldur’s Gate полно в сети, и модели черпали из одних источников, так что различия в основном стилистические. ChatGPT фанатеет от маркированных списков и коротких фраз, Gemini щедро выделяет ключевые слова.

Самый неожиданный момент — от Claude, которая переживала за спойлеры и не хотела портить впечатление. На вопрос о составе отряда она завершила: «не переживай сильно, играй тем, что нравится». Спасибо, Claude!

Стоит помнить: по данным Business Insider, xAI целенаправленно доводила этот аспект до уровня конкурентов. Не стоит переоценивать, что после спринта Grok вышел на паритет с остальными. Но приятно видеть, что компания способна добиться цели, если сосредоточится.