LLM проваливаются в видеоиграх: эксперт раскрыл причины

Крупные языковые модели не справляются с видеоиграми, несмотря на успехи в кодинге и других областях. Джулиан Тогелиус объясняет: нет общего ИИ для игр, слабое пространственное мышление, проблемы с бенчмарками и итерациями. Это раскрывает ограничения ИИ в разнообразных задачах.

Крупные языковые модели быстро прогрессируют, бенчмарки усложняются, чтобы бросить вызов новейшим версиям. Однако в некоторых областях они не продвинулись, и видеоигры остаются для них недоступными: модели просто не понимают, как в них играть.

Несколько моделей смогли пройти отдельные игры, например Gemini 2.5 Pro одолела Pokemon Blue в мае 2025 года. Но такие случаи только подтверждают общее правило. Победившая модель действовала гораздо медленнее обычного человека, совершала странные повторяющиеся ошибки и нуждалась в специальном ПО для взаимодействия с игрой.

Джулиан Тогелиус, руководитель Game Innovation Lab Нью-Йоркского университета и сооснователь компании Modl.ai по тестированию игр с помощью ИИ, разобрал ограничения моделей в видеоиграх в свежей работе. Он поделился мыслями о состоянии ИИ в 2026 году.

Крупные модели резко улучшились в написании кода, и ваша работа сравнивает кодинг с хорошо структурированной игрой. Что имеется в виду?

Джулиан Тогелиус: Написание кода организовано идеально. Есть задания, похожие на уровни. Получаешь задание, пишешь код, запускаешь его.

Награда приходит сразу и детально. Код должен компилироваться, запускаться без сбоев, проходить тесты. Часто объясняют, почему именно не сработало.

Игровой дизайнер Рап Кoster утверждал, что удовольствие от игр возникает от обучения в процессе. С этой точки зрения кодинг — образцовая игра. Многие люди действительно получают от него радость.

В отличие от кодинга, модели с трудом справляются с видеоиграми. Это неожиданно, учитывая успехи в кодинге, шахматах и го. Чем видеоигры отличаются?

Тогелиус: Проблема не только у языковых моделей. Общий ИИ для игр пока не существует.

Распространено мнение, что раз ИИ осваивает конкретные игры, то сможет играть во все. Не факт, что это случится.

Упоминают AlphaZero от Google, которая играет в го и шахматы. Но для каждой игры её переобучали и перестраивали. Эти игры похожи по формату ввода и вывода. Большинство игр сильно различаются механиками и способами представления данных.

Есть ещё проблема данных. Игры вроде Minecraft и Pokémon изучены вдоль и поперёк, с миллионами часов гайдов. Для менее популярных игр материала гораздо меньше.

Бенчмарки видеоигр для оценки языковых моделей

Бенчмарки помогают моделям расти в кодинге: много заданий, оценка, доработка. С видеоиграми сложнее. Почему?

Тогелиус: За годы я создал немало бенчмарков на основе игр. Один — соревнование General Video Game AI — шло семь лет. Тестировали агентов на открытых играх, а каждый раз добавляли десять новых.

Прекратили, потому что прогресса не стало. Агенты улучшались в одних играх, но деградировали в других. Это было до языковых моделей.

Сейчас адаптируем фреймворк под них. Результат удручающий. Все модели проваливаются. Они хуже простого алгоритма поиска.

Причины: их не обучали на этих играх, плюс слабое пространственное мышление. Логично, ведь и этого нет в обучающих данных.

Получается противоречие. Модели не играют в игры, но мастерски кодят их. Как это сочетается?

Тогелиус: Действительно странно. В Cursor или Claude одним промтом получаешь рабочую игру. Она типичная — модели лучше справляются с шаблонными вещами. Просишь что-то вроде Asteroids — выходит.

Но игра не будет выдающейся или оригинальной. Разработка игр — итеративный процесс: пишешь, тестируешь, настраиваешь ощущения. Модель не способна на это, потому что не умеет играть.

В какой-то мере то же с другим ПО. Можно сгенерировать интерфейс с кнопками, но модель не понимает, как им пользоваться.

Компании вроде Nvidia и Google продвигают симуляции, включая игровые среды, для тренировки ИИ. Стоит ли верить в этот подход, если игры не даются?

Тогелиус: Игры проще реального мира по абстракциям, но сложнее по разнообразию. В реальности физика везде одинаковая.

Пример — Waymo, использующая модели мира в обучении. Подходит для вождения: оно везде похоже, не такое разнообразное, как игры.

Это сбивает с толку. Люди видят, как модель пишет эссе по квантовой физике, и думают: почему она не проходит Halo и Space Invaders? На деле эти игры отличаются друг от друга сильнее, чем два научных текста.

Почему крупные языковые модели так плохо играют в видеоигры?

Бенчмарки видеоигр для оценки языковых моделей

Горячее

7 лучших альтернатив Claude Code для агентного кодинга в CLI

Anthropic запустила Opus 5: более дешёвая и мощная ИИ-модель

OpenAI добавила голосовое управление в ChatGPT для ПК

Runway запустила Media Router — ИИ-роутер для генеративных медиа

Anthropic добавила Opus и Sonnet в голосовой режим Claude

Сейчас в тренде