Новости и статьи об искусственном интеллекте и нейросетях. Мы собираем и обрабатываем самую актуальную информацию из мира AI. О проекте

Статьи

Обучение с временными разностями и роль исследования

Статья разбирает методы обучения с временными разностями в подкрепляющем обучении, сравнивая Q-обучение, Dyna-Q и Dyna-Q+ на примере изменяющегося мира сетки. Эксперимент подчеркивает роль непрерывного исследования для адаптации к изменениям среды и показывает преимущества модельных подходов в эффективности. Анализ производительности выявляет компромиссы между скоростью сходимости, исследованием и вычислительными затратами.

14 октября 2025 г.
18 мин
5

Подкрепляющее обучение предлагает эффективные подходы к решению задач последовательного принятия решений. Методы обучения с временными разностями (TD-обучение) представляют собой востребованный класс алгоритмов подкрепляющего обучения. Эти методы интегрируют основные элементы методов Монте-Карло и динамического программирования, что позволяет ускорять процесс обучения без необходимости в идеальной модели динамики среды.

В этой публикации мы разберем различные варианты TD-алгоритмов на примере специально созданного мира сетки. Эксперимент подчеркивает значимость непрерывного исследования, а также отличительные особенности анализируемых алгоритмов: Q-обучение, Dyna-Q и Dyna-Q+.

Структура материала включает:

  • Описание среды
  • Обучение с временными разностями (TD-обучение)
  • Бесмодельные TD-методы (Q-обучение) и модельные TD-методы (Dyna-Q и Dyna-Q+)
  • Параметры
  • Сравнение производительности
  • Заключение

Среда эксперимента

Для проведения эксперимента выбрана среда в виде мира сетки со следующими характеристиками:

  • Сетка состоит из 12 строк и 8 столбцов клеток.
  • Агент начинает движение из левого нижнего угла, а цель — добраться до сокровища в правом верхнем углу (конечное состояние с наградой 1).
  • Синие порталы связаны между собой: проход через портал в клетке (10, 6) переносит в клетку (11, 0). Агент не может использовать портал повторно после первого перехода.
  • Фиолетовый портал возникает после 100 эпизодов и позволяет агенту быстрее достичь цели. Это стимулирует постоянное исследование среды.
  • Красные порталы — это ловушки (конечные состояния с наградой 0), которые завершают эпизод.
  • Столкновение со стеной оставляет агента в текущем состоянии.
Описание компонентов мира сетки

Описание различных элементов мира сетки

Цель эксперимента — сопоставить поведение агентов Q-обучения, Dyna-Q и Dyna-Q+ в изменяющейся среде. После 100 эпизодов оптимальная политика меняется, и минимальное количество шагов в успешном эпизоде снижается с 17 до 12.

Представление мира сетки, оптимальные пути зависят от эпизода

Изображение мира сетки, оптимальные траектории зависят от текущего эпизода

Введение в обучение с временными разностями

Обучение с временными разностями объединяет методы Монте-Карло (MC) и динамическое программирование (DP):

  • Подобно методам MC, TD-методы обучаются на основе опыта без необходимости в модели динамики среды.
  • Подобно методам DP, TD-методы корректируют оценки после каждого шага на основе других полученных оценок, не дожидаясь финального результата (это называется бутстрапингом).

Особенностью TD-методов является обновление оценки ценности на каждом временном шаге, в отличие от методов MC, которые ожидают завершения эпизода.

Оба подхода используют различные цели обновления. Методы MC корректируют возврат Gt, доступный только в конце эпизода. TD-методы же ориентированы на:

Цель обновления для TD-методов

Цель обновления в TD-методах

Здесь V — это оценка истинной функции ценности Vπ.

Таким образом, TD-методы сочетают выборку из MC (используя оценку истинной ценности) и бутстрапинг из DP (обновляя V на основе дальнейших оценок).

Простейшая форма обучения с временными разностями — это TD(0) или одношаговое TD, реализация которого выглядит следующим образом:

Псевдокод для алгоритма TD(0)

Псевдокод алгоритма TD(0)

При переходе из состояния S в новое состояние S’ алгоритм TD(0) вычисляет подкрепленную ценность и корректирует V(S). Эта подкрепленная ценность известна как TD-ошибка — разница между наблюдаемой наградой R плюс дисконтированной ценностью нового состояния γV(St+1) и текущей оценкой V(S):

TD-ошибка

TD-ошибка

В итоге, TD-методы обладают рядом преимуществ:

  • Они не требуют идеальной модели динамики среды p
  • Они работают в онлайн-режиме, обновляя оценки после каждого шага
  • TD(0) гарантированно сходится для любой фиксированной политики π, если α (скорость обучения или размер шага) удовлетворяет условиям стохастического приближения

Детали реализации

Дальнейшие разделы рассматривают ключевые свойства и результаты нескольких TD-алгоритмов в мире сетки.

Для всех моделей применены одинаковые параметры в целях упрощения:

  • Эпсилон (ε) = 0.1: вероятность выбора случайного действия в ε-жадных политиках
  • Гамма (γ) = 0.9: фактор дисконтирования для будущих наград или оценок ценности
  • Альфа (α) = 0.25: скорость обучения, ограничивающая обновления Q-ценностей
  • Шаги планирования = 100: для Dyna-Q и Dyna-Q+ количество шагов планирования на каждое прямое взаимодействие
  • Каппа (κ) = 0.001: для Dyna-Q+ вес бонусных наград при шагах планирования

Производительность каждого алгоритма сначала показана для одного прогона из 400 эпизодов (разделы: Q-обучение, Dyna-Q и Dyna-Q+), а затем усреднена по 100 прогонам из 250 эпизодов в разделе «обзор и сравнение алгоритмов».

Q-обучение

Первый реализованный алгоритм — известное Q-обучение (Watkins, 1989):

Псевдокод Q-обучения

Q-обучение относится к офф-полити алгоритмам, поскольку стремится напрямую аппроксимировать оптимальную функцию ценности, а не функцию ценности политики π, которой следует агент.

На практике Q-обучение использует политику, называемую поведенческой политикой, для выбора посещаемых пар состояние-действие и их обновления. Однако оно офф-полити, потому что обновляет Q-ценности на основе лучшей оценки будущих наград, независимо от того, соответствуют ли выбранные действия текущей политике π.

По сравнению с предыдущим псевдокодом TD-обучения, здесь три ключевых отличия:

  • Необходимо инициализировать Q-функцию для всех состояний и действий, при этом Q(конечное) = 0
  • Действия выбираются по политике на основе Q-ценностей (например, ε-жадная политика относительно Q-ценностей)
  • Обновление направлено на функцию ценности действия Q, а не на функцию ценности состояния V
Псевдокод алгоритма Q-обучения

Псевдокод алгоритма Q-обучения

Теперь, когда алгоритм готов к тестированию, начинается фаза обучения. Агент перемещается по миру сетки с помощью ε-жадной политики относительно Q-ценностей. Эта политика выбирает действие с наивысшей Q-ценностью с вероятностью (1 – ε) и случайное действие с вероятностью ε. После каждого действия агент корректирует оценки Q-ценностей.

Эволюцию оценок максимальной ценности действия Q(S, a) для каждой клетки мира сетки можно визуализировать с помощью тепловой карты. Агент проходит 400 эпизодов. Поскольку обновление происходит только один раз за эпизод, изменения Q-ценностей медленные, и значительная часть состояний остается неисследованной:

Тепловая карта обученных Q-ценностей состояний во время обучения

Тепловая карта оценок Q-ценностей для каждого состояния во время обучения

После 400 эпизодов анализ общего количества посещений каждой клетки дает хорошую оценку средней траектории агента. Как видно на правом графике ниже, агент сошелся к субоптимальной траектории, избегая клетки (4,4) и постоянно следуя вдоль нижней стены.

(слева) Оценка максимальной ценности действия для каждого состояния, (справа) Количество посещений на состояние

Оценка максимальной ценности действия для состояний (слева), количество посещений состояний (справа)

Из-за этой субоптимальной стратегии агент достигает минимума в 21 шаг за эпизод, следуя пути, показанному на графике посещений. Колебания в количестве шагов объясняются ε-жадной политикой, вводящей 10% вероятность случайных действий. Такая политика делает следование вдоль нижней стены разумным способом минимизировать влияние случайностей.

Количество шагов для последних 100 эпизодов обучения (300–400)

Количество шагов для последних 100 эпизодов (300–400)

В итоге, агент Q-обучения сошелся к субоптимальной стратегии, как отмечалось ранее. Кроме того, часть среды остается неисследованной Q-функцией, что не позволяет агенту обнаружить новый оптимальный путь после появления фиолетового портала на 100-м эпизоде.

Эти ограничения производительности связаны с относительно малым числом шагов обучения (400), что ограничивает взаимодействия со средой и исследование, провоцируемое ε-жадной политикой.

Планирование, ключевой элемент модельных методов подкрепляющего обучения, особенно полезно для повышения эффективности выборки и оценки ценностей действий. Dyna-Q и Dyna-Q+ — удачные примеры TD-алгоритмов с шагами планирования.

Dyna-Q

Алгоритм Dyna-Q (динамическое Q-обучение) сочетает модельное подкрепляющее обучение и TD-обучение.

Модельные алгоритмы RL опираются на модель среды для планирования как основного механизма обновления оценок ценности. В отличие от них, бесмодельные алгоритмы полагаются на прямое обучение.

«Модель среды — это все, что агент может использовать для предсказания реакции среды на свои действия» — Подкрепляющее обучение: введение.

В контексте этой статьи модель можно рассматривать как аппроксимацию динамики переходов p(s’, r|s, a). Здесь p возвращает единственную пару следующего состояния и награды для текущей пары состояние-действие.

В стохастических средах различают распределительные модели и выборочные модели: первые дают распределение следующих состояний и наград, вторые — одну пару, выбранную из оцененного распределения.

Модели полезны для симуляции эпизодов, позволяя обучать агента, заменяя реальные взаимодействия шагами планирования, то есть взаимодействиями с симулированной средой.

Агенты с Dyna-Q относятся к классу агентов с планированием, которые комбинируют прямое подкрепляющее обучение и обучение модели. Они обновляют функцию ценности через прямые взаимодействия (как в Q-обучении) и учат модель среды. После каждого прямого взаимодействия выполняются шаги планирования для обновления функции ценности с помощью симулированных взаимодействий.

Простой пример с шахматами

Представьте хорошую партию в шахматы. После каждого хода реакция оппонента позволяет оценить качество хода. Это похоже на получение положительной или отрицательной награды, которая помогает «обновить» стратегию. Если ход приводит к ошибке, вы, вероятно, не повторите его в похожей позиции доски. Пока это аналогично прямому подкрепляющему обучению.

Теперь добавим планирование. Пока оппонент думает, вы мысленно возвращаетесь к каждому предыдущему ходу, чтобы переоценить его качество. Вы можете заметить упущенные слабости или понять, что некоторые ходы лучше, чем казалось. Эти размышления позволяют обновить стратегию. Именно это и есть планирование: обновление функции ценности без взаимодействия с реальной средой, а с ее моделью.

Планирование, действие, обучение модели и прямое RL: расписание агента с планированием

Планирование, действия, обучение модели и прямое RL: цикл агента с планированием

Dyna-Q включает дополнительные шаги по сравнению с Q-обучением:

После каждого прямого обновления Q-ценностей модель сохраняет пару состояние-действие, наблюдаемую награду и следующее состояние. Это называется обучением модели.

  • После обучения модели Dyna-Q выполняет n шагов планирования:
  • Случайная пара состояние-действие выбирается из буфера модели (эта пара была наблюдаема в прямых взаимодействиях)
  • Модель генерирует симулированную награду и следующее состояние
  • Функция ценности обновляется с использованием симулированных наблюдений (s, a, r, s’)
Псевдокод алгоритма Dyna-Q

Псевдокод алгоритма Dyna-Q

Теперь воспроизведем процесс обучения с Dyna-Q, используя n=100. Это означает, что после каждого прямого взаимодействия с средой модель выполняет 100 шагов планирования (обновлений).

Следующая тепловая карта демонстрирует быструю сходимость модели Dyna-Q. Фактически, алгоритму требуется около 10 эпизодов, чтобы найти оптимальный путь. Это происходит потому, что каждый шаг приводит к 101 обновлению Q-ценностей (вместо 1 в Q-обучении).

Тепловая карта обученных Q-ценностей состояний во время обучения

Тепловая карта оценок Q-ценностей состояний во время обучения

Еще одно преимущество шагов планирования — лучшая оценка ценностей действий по всей сетке. Поскольку косвенные обновления касаются случайных переходов из модели, обновляются даже состояния, далекие от цели.

В Q-обучении ценности действий медленно распространяются от цели, что приводит к неполному картированию сетки.

(слева) Оценка максимальной ценности действия для каждого состояния, (справа) Количество посещений на состояние

Оценка максимальной ценности действия (слева), количество посещений (справа)

С Dyna-Q находится оптимальный путь, решающий задачу мира сетки за 17 шагов, как показано красными полосами на графике ниже. Оптимальные результаты достигаются регулярно, несмотря на периодическое вмешательство ε-жадных действий для исследования.

Наконец, хотя Dyna-Q кажется убедительнее Q-обучения благодаря планированию, важно помнить о компромиссе между вычислительными затратами и исследованием реального мира.

Количество шагов для последних 100 эпизодов обучения (300–400)

Количество шагов для последних 100 эпизодов (300–400)

Dyna-Q+

До сих пор ни один из протестированных алгоритмов не смог найти оптимальный путь, появляющийся после 100-го шага (фиолетовый портал). Оба алгоритма быстро сошлись к оптимальному решению, которое оставалось неизменным до конца обучения. Это подчеркивает необходимость непрерывного исследования на протяжении всего процесса.

Dyna-Q+ во многом похож на Dyna-Q, но включает небольшое изменение. Алгоритм постоянно отслеживает количество временных шагов, прошедших с момента последнего реального взаимодействия с каждой парой состояние-действие.

В частности, для перехода с наградой r, не пробованного в течение τ шагов, Dyna-Q+ планирует, как будто награда равна r + κτ, где κ достаточно мало (0.001 в эксперименте).

Это изменение в дизайне наград побуждает агента к постоянному исследованию среды. Оно предполагает, что чем дольше пара состояние-действие не пробовалась, тем выше вероятность изменения ее динамики или ошибки в модели.

Псевдокод алгоритма Dyna-Q+

Псевдокод алгоритма Dyna-Q+

Как видно на следующей тепловой карте, Dyna-Q+ гораздо активнее в обновлениях по сравнению с предыдущими алгоритмами. До 100-го эпизода агент исследует всю сетку, находит синий портал и первый оптимальный маршрут.

Ценности действий для остальной части сетки снижаются, прежде чем медленно расти снова, поскольку пары состояние-действие в левом верхнем углу некоторое время не исследуются.

Как только фиолетовый портал появляется на 100-м эпизоде, агент обнаруживает новую короткую дорогу, и ценности для всей области повышаются. До завершения 400 эпизодов агент непрерывно обновляет ценности действий для каждой пары, сохраняя периодическое исследование сетки.

Тепловая карта обученных Q-ценностей состояний во время обучения

Тепловая карта оценок Q-ценностей состояний во время обучения

Благодаря бонусу к наградам модели мы наконец получаем полное картирование Q-функции (каждое состояние или клетка имеет ценность действия).

В сочетании с непрерывным исследованием агент находит новый лучший маршрут (то есть оптимальную политику) по мере его появления, сохраняя предыдущее решение.

(слева) Оценка максимальной ценности действия для каждого состояния, (справа) Количество посещений на состояние

Оценка максимальной ценности действия (слева), количество посещений (справа)

Однако компромисс между исследованием и эксплуатацией в Dyna-Q+ имеет цену. Когда пары состояние-действие долго не посещаются, бонус исследования побуждает агента вернуться к ним, что может временно снижать немедленную производительность. Такое поведение исследования приоритизирует обновление модели для улучшения долгосрочных решений.

Это объясняет, почему некоторые эпизоды в Dyna-Q+ достигают до 70 шагов, в то время как в Q-обучении и Dyna-Q максимум 35 и 25 шагов соответственно. Более длинные эпизоды в Dyna-Q+ отражают готовность агента тратить дополнительные шаги на исследование для сбора информации о среде и уточнения модели, даже если это приводит к краткосрочному снижению производительности.

В отличие от этого, Dyna-Q+ регулярно достигает оптимальной производительности (показанной зелеными полосами на графике ниже), чего не добиваются предыдущие алгоритмы.

Количество шагов для последних 100 эпизодов обучения (300–400)

Количество шагов для последних 100 эпизодов (300–400)

Обзор и сравнение алгоритмов

Для выявления ключевых различий между алгоритмами используются две метрики (результаты зависят от входных параметров, которые были одинаковы для всех моделей в целях простоты):

  • Количество шагов за эпизод: эта метрика характеризует скорость сходимости алгоритмов к оптимальному решению. Она также описывает поведение после сходимости, особенно в плане исследования.
  • Средняя кумулятивная награда: процент эпизодов, приводящих к положительной награде

Анализ количества шагов за эпизод (см. график ниже) раскрывает несколько аспектов модельных и бесмодельных методов:

  • Эффективность модельных методов: Модельные алгоритмы (Dyna-Q и Dyna-Q+) более эффективны по выборке в этом мире сетки (это свойство наблюдается в RL в целом). Они планируют заранее с помощью изученной модели среды, что приводит к более быстрой сходимости к почти оптимальным или оптимальным решениям.
  • Сходимость Q-обучения: Q-обучение, хотя и сходится в итоге к почти оптимальному решению, требует больше эпизодов (125). Важно отметить, что Q-обучение выполняет только 1 обновление за шаг, в отличие от множественных обновлений в Dyna-Q и Dyna-Q+.
  • Множественные обновления: Dyna-Q и Dyna-Q+ выполняют 101 обновление за шаг, что ускоряет сходимость. Однако цена за эту эффективность выборки — вычислительные затраты (см. раздел времени выполнения в таблице ниже).
  • Сложные среды: В более сложных или стохастических средах преимущество модельных методов может уменьшиться. Модели могут вносить ошибки или неточности, приводя к субоптимальным политикам. Поэтому это сравнение следует воспринимать как обзор сильных и слабых сторон подходов, а не прямое сопоставление производительности.
Сравнение количества шагов за эпизод, усредненное по 100 прогонам

Сравнение количества шагов за эпизод, усредненное по 100 прогонам

Теперь рассмотрим среднюю кумулятивную награду (ACR), которая отражает процент эпизодов, в которых агент достигает цели (поскольку награда 1 за цель и 0 за ловушку), ACR вычисляется как:

Формула средней кумулятивной награды

Формула ACR

Где N — число эпизодов (250), K — число независимых прогонов (100), а Rn,k — кумулятивная награда за эпизод n в прогоне k.

Вот разбор производительности всех алгоритмов:

  • Dyna-Q быстро сходится и достигает наивысшей общей отдачи с ACR 87%. Это означает эффективное обучение и достижение цели в значительной доле эпизодов.
  • Q-обучение также достигает похожего уровня производительности, но требует больше эпизодов для сходимости, что объясняет немного более низкий ACR в 70%.
  • Dyna-Q+ быстро находит хорошую политику, достигая кумулятивной награды 0.8 уже после 15 эпизодов. Однако вариабельность и исследование, вызванное бонусной наградой, снижают производительность до 100-го шага. После 100 шагов улучшение начинается с обнаружением нового оптимального пути. Тем не менее, краткосрочное исследование ухудшает производительность, приводя к ACR 79%, что ниже, чем у Dyna-Q, но выше, чем у Q-обучения.
Сравнение кумулятивной награды за эпизод, усредненное по 100 прогонам

Сравнение кумулятивной награды за эпизод, усредненное по 100 прогонам

Заключение

В этой статье мы изложили базовые принципы обучения с временными разностями и применили Q-обучение, Dyna-Q и Dyna-Q+ к специально созданному миру сетки. Дизайн этого мира сетки помогает подчеркнуть важность непрерывного исследования как способа обнаружения и использования новых оптимальных политик в изменяющихся средах. Различия в производительности (оцененные по количеству шагов за эпизод и кумулятивной награде) иллюстрируют сильные и слабые стороны этих алгоритмов.

В обзоре модельные методы (Dyna-Q, Dyna-Q+) выигрывают в эффективности выборки по сравнению с бесмодельными (Q-обучение), но проигрывают в вычислительной эффективности. Однако в стохастических или более сложных средах неточности модели могут мешать производительности и приводить к субоптимальным политикам.