Grok от xAI освоил Baldur’s Gate после доработки

xAI задержала релиз Grok из-за слабых ответов по Baldur’s Gate по настоянию Маска, задействовав инженеров. Тест BaldurBench на пяти вопросах показал: модель теперь на равных с ChatGPT, Claude и Gemini, используя сленг, таблицы и теориикрафт. Это отражает приоритет xAI на игровые гайды.

Разные акценты у ИИ-компаний

Каждая лаборатория искусственного интеллекта выбирает свои направления. OpenAI ориентируется на повседневных пользователей, Anthropic — на корпоративный сектор. А xAI Элона Маска, как стало известно недавно, делает ставку на прохождения видеоигр.

Недавно Business Insider выпустил обширный материал о xAI, которую SpaceX недавно приобрела, с фокусом на то, как Musk создает сложности для команды. Особо запоминается один эпизод:

Прошлым годом запуск модели отложили на несколько дней — Musk остался недоволен тем, как чатбот справлялся с подробными вопросами по игре «Baldur’s Gate». Знакомые с ситуацией люди рассказали: ведущих инженеров оторвали от текущих задач, чтобы подтянуть ответы перед выходом.

Легко представить досаду матерого специалиста, который рассчитывает решать ключевые вопросы машинного обучения, а вместо этого отвлекается на помощь 54-летнему руководителю с видеоиграми. Однако случай порождает главный вопрос: удалось ли Маска добиться желаемого уровня в игровых советах?

Проверка в действии: BaldurBench

Для ответа энтузиаст ролевых игр подготовил пять типичных вопросов по Baldur’s Gate. Мы запустили их через Grok от xAI и три ведущие модели — получилось что-то вроде мини-теста под названием BaldurBench.

Чтобы обеспечить открытость, все диалоги выложены публично: Grok, ChatGPT, Claude, Gemini.

Начнем с позитивного: Grok выдает действительно полезные и точные сведения. Ответы полны геймерского сленга вроде «save-scumming» вместо обычного сохранения или «DPS» вместо урона, но если разбираешься в терминах, советы стоящие. Модель обожает таблицы и теорикрафт — как и положено.

Гайдов по Baldur’s Gate полно в сети, и модели черпали из одних источников, так что различия в основном стилистические. ChatGPT фанатеет от маркированных списков и коротких фраз, Gemini щедро выделяет ключевые слова.

Самый неожиданный момент — от Claude, которая переживала за спойлеры и не хотела портить впечатление. На вопрос о составе отряда она завершила: «не переживай сильно, играй тем, что нравится». Спасибо, Claude!

Стоит помнить: по данным Business Insider, xAI целенаправленно доводила этот аспект до уровня конкурентов. Не стоит переоценивать, что после спринта Grok вышел на паритет с остальными. Но приятно видеть, что компания способна добиться цели, если сосредоточится.

Хорошие новости для xAI: Grok отлично отвечает по Baldur’s Gate

Разные акценты у ИИ-компаний

Проверка в действии: BaldurBench

Горячее

7 лучших альтернатив Claude Code для агентного кодинга в CLI

Топ-5 MCP-серверов для создания мощных ИИ-агентов

Anthropic запустила Opus 5: более дешёвая и мощная ИИ-модель

YouTube уточняет правила по ИИ-мусору и шокирующим видео

Runway запустила Media Router — ИИ-роутер для генеративных медиа

Сейчас в тренде