Новое исследование демонстрирует, что большие языковые модели способны имитировать окружения, что помогает преодолеть узкое место в обучении автономных ИИ-агентов.
Автономные ИИ-агенты сталкиваются с ключевой трудностью: для обучения им требуется опыт взаимодействия с реальными окружениями. Однако такие окружения ограничены, сложно масштабируются и часто бывают слишком жесткими.
Исследователи из Южного университета науки и технологии, Microsoft Research, Принстонского университета, Университета Эдинбурга и других организаций проверили, могут ли большие языковые модели выступать в роли моделей мира.
Модель мира — это внутренний симулятор, который прогнозирует последствия действий агента. Благодаря ей агент может тренироваться в виртуальной среде, быстрее осваивая навыки за счет имитации опыта.
Исследование переосмысливает языковое моделирование: вместо следующего слова модель предсказывает следующее состояние окружения после действия. Это позволяет большим языковым моделям точно симулировать миры, чтобы агенты учились на синтетическом опыте, а не только на редких реальных взаимодействиях.
Пять текстовых окружений выявляют возможности и ограничения больших языковых моделей
Эксперименты провели в пяти текстовых средах. В ALFWorld агенты выполняют бытовые задания, например, охлаждают чашку и ставят ее в кофемашину. SciWorld имитирует лабораторию для научных опытов. TextWorld предлагает повествовательные головоломки с элементами исследования. WebShop воспроизводит онлайн-магазин, где нужно находить товары по точным характеристикам. StableToolBench проверяет использование API-инструментов.
Этот набор включает как структурированные области с четкими правилами, так и открытые среды с большой вариативностью. Оценивали модели мира по трем критериям: точность и стабильность предсказаний переходов состояний в длинных последовательностях; масштабируемость с ростом данных и размеров моделей; полезность для реального обучения агентов.
Дообучение обеспечивает высокую точность симуляции мира
Предобученные языковые модели уже частично моделируют реальность. Claude-sonnet-4.5 достигла 77 процентов точности предсказания следующего состояния в бытовой среде всего на трех примерах. Но для сложных задач этого оказалось мало.
Ключевой прорыв случился при дообучении на реальных данных взаимодействий. Qwen2.5-7B и Llama-3.1-8B после тонкой настройки показали свыше 99 процентов точности в ALFWorld, около 98,6 процента в SciWorld и примерно 70 процентов в TextWorld.
Модели сохраняли надежность на длинных последовательностях действий. В структурированных областях коэффициент согласованности превысил 90 процентов — планы, составленные в модели мира, реализовывались в реальной среде почти так же успешно, как при прямом взаимодействии.
Симуляция электронной коммерции оказалась сложнее. Коэффициент согласованности в среднем составлял около 70 процентов, сильно различаясь по агентам — слабые показывали гораздо худшие результаты. Однако при инициализации симуляции реальными наблюдениями согласованность подскочила почти до 100 процентов, даже для агента GPT-4o.
Модель мира на базе LLM (Qwen2.5-7B или Llama3.1-8B) симулирует окружение, предсказывая исходы действий. Агенты LLM в строках таблицы (GPT-4o, GPT-4-turbo, Claude-sonnet-4.5 и другие) планируют и выполняют действия в этой симуляции.
Масштабирование требует роста данных и размеров моделей
Команда выявила четкие закономерности масштабирования. В структурированных средах вроде бытовых или лабораторных точность достигала плато на 20 тысячах траекторий обучения (записанных последовательностях попыток агента выполнить задачу). Открытые среды, такие как магазин, продолжали улучшаться до 70 тысяч траекторий.
Размер модели вел себя похоже. Модели с 1,5 миллиарда параметров справлялись со структурированными задачами, но для сложных требовалась большая мощность. Вывод: успех в моделировании мира зависит от объема данных и размера модели, которые должны расти вместе со сложностью среды.
Результаты подкрепляют идею обучения ИИ на основе опыта
Открытия перекликаются с обсуждением будущего ИИ. Лауреат премии Тьюринга Ричард Саттон недавно заявил, что индустрия ИИ сбилась с пути, поскольку системы получают знания на этапе разработки, а не учатся непрерывно на опыте.
В эссе «Добро пожаловать в эру опыта», написанном вместе с исследователем DeepMind Дэвидом Сильвером, Саттон призвал к смене парадигмы: агенты должны учиться на собственном опыте, используя модели мира как внутренние симуляторы.
Это исследование дает экспериментальные доказательства части видения: большие языковые модели осваивают симуляцию динамики окружений и могут стать основой для обучения агентов на опыте. Однако оно не решает главную проблему Саттона — отсутствие непрерывного обучения без забывания, которое он считает ключевым барьером на пути к настоящему интеллекту.