TD-обучение и исследование в RL: сравнение алгоритмов

Подкрепляющее обучение предлагает эффективные подходы к решению задач последовательного принятия решений. Методы обучения с временными разностями (TD-обучение) представляют собой востребованный класс алгоритмов подкрепляющего обучения. Эти методы интегрируют основные элементы методов Монте-Карло и динамического программирования, что позволяет ускорять процесс обучения без необходимости в идеальной модели динамики среды.

В этой публикации мы разберем различные варианты TD-алгоритмов на примере специально созданного мира сетки. Эксперимент подчеркивает значимость непрерывного исследования, а также отличительные особенности анализируемых алгоритмов: Q-обучение, Dyna-Q и Dyna-Q+.

Структура материала включает:

Описание среды
Обучение с временными разностями (TD-обучение)
Бесмодельные TD-методы (Q-обучение) и модельные TD-методы (Dyna-Q и Dyna-Q+)
Параметры
Сравнение производительности
Заключение

Среда эксперимента

Для проведения эксперимента выбрана среда в виде мира сетки со следующими характеристиками:

Сетка состоит из 12 строк и 8 столбцов клеток.
Агент начинает движение из левого нижнего угла, а цель — добраться до сокровища в правом верхнем углу (конечное состояние с наградой 1).
Синие порталы связаны между собой: проход через портал в клетке (10, 6) переносит в клетку (11, 0). Агент не может использовать портал повторно после первого перехода.
Фиолетовый портал возникает после 100 эпизодов и позволяет агенту быстрее достичь цели. Это стимулирует постоянное исследование среды.
Красные порталы — это ловушки (конечные состояния с наградой 0), которые завершают эпизод.
Столкновение со стеной оставляет агента в текущем состоянии.

Описание различных элементов мира сетки

Цель эксперимента — сопоставить поведение агентов Q-обучения, Dyna-Q и Dyna-Q+ в изменяющейся среде. После 100 эпизодов оптимальная политика меняется, и минимальное количество шагов в успешном эпизоде снижается с 17 до 12.

Представление мира сетки, оптимальные пути зависят от эпизода

Изображение мира сетки, оптимальные траектории зависят от текущего эпизода

Введение в обучение с временными разностями

Обучение с временными разностями объединяет методы Монте-Карло (MC) и динамическое программирование (DP):

Подобно методам MC, TD-методы обучаются на основе опыта без необходимости в модели динамики среды.
Подобно методам DP, TD-методы корректируют оценки после каждого шага на основе других полученных оценок, не дожидаясь финального результата (это называется бутстрапингом).

Особенностью TD-методов является обновление оценки ценности на каждом временном шаге, в отличие от методов MC, которые ожидают завершения эпизода.

Оба подхода используют различные цели обновления. Методы MC корректируют возврат Gt, доступный только в конце эпизода. TD-методы же ориентированы на:

Цель обновления в TD-методах

Здесь V — это оценка истинной функции ценности Vπ.

Таким образом, TD-методы сочетают выборку из MC (используя оценку истинной ценности) и бутстрапинг из DP (обновляя V на основе дальнейших оценок).

Простейшая форма обучения с временными разностями — это TD(0) или одношаговое TD, реализация которого выглядит следующим образом:

Псевдокод алгоритма TD(0)

При переходе из состояния S в новое состояние S’ алгоритм TD(0) вычисляет подкрепленную ценность и корректирует V(S). Эта подкрепленная ценность известна как TD-ошибка — разница между наблюдаемой наградой R плюс дисконтированной ценностью нового состояния γV(St+1) и текущей оценкой V(S):

TD-ошибка

В итоге, TD-методы обладают рядом преимуществ:

Они не требуют идеальной модели динамики среды p
Они работают в онлайн-режиме, обновляя оценки после каждого шага
TD(0) гарантированно сходится для любой фиксированной политики π, если α (скорость обучения или размер шага) удовлетворяет условиям стохастического приближения

Детали реализации

Дальнейшие разделы рассматривают ключевые свойства и результаты нескольких TD-алгоритмов в мире сетки.

Для всех моделей применены одинаковые параметры в целях упрощения:

Эпсилон (ε) = 0.1: вероятность выбора случайного действия в ε-жадных политиках
Гамма (γ) = 0.9: фактор дисконтирования для будущих наград или оценок ценности
Альфа (α) = 0.25: скорость обучения, ограничивающая обновления Q-ценностей
Шаги планирования = 100: для Dyna-Q и Dyna-Q+ количество шагов планирования на каждое прямое взаимодействие
Каппа (κ) = 0.001: для Dyna-Q+ вес бонусных наград при шагах планирования

Производительность каждого алгоритма сначала показана для одного прогона из 400 эпизодов (разделы: Q-обучение, Dyna-Q и Dyna-Q+), а затем усреднена по 100 прогонам из 250 эпизодов в разделе «обзор и сравнение алгоритмов».

Q-обучение

Первый реализованный алгоритм — известное Q-обучение (Watkins, 1989):

Q-обучение относится к офф-полити алгоритмам, поскольку стремится напрямую аппроксимировать оптимальную функцию ценности, а не функцию ценности политики π, которой следует агент.

На практике Q-обучение использует политику, называемую поведенческой политикой, для выбора посещаемых пар состояние-действие и их обновления. Однако оно офф-полити, потому что обновляет Q-ценности на основе лучшей оценки будущих наград, независимо от того, соответствуют ли выбранные действия текущей политике π.

По сравнению с предыдущим псевдокодом TD-обучения, здесь три ключевых отличия:

Необходимо инициализировать Q-функцию для всех состояний и действий, при этом Q(конечное) = 0
Действия выбираются по политике на основе Q-ценностей (например, ε-жадная политика относительно Q-ценностей)
Обновление направлено на функцию ценности действия Q, а не на функцию ценности состояния V

Псевдокод алгоритма Q-обучения

Теперь, когда алгоритм готов к тестированию, начинается фаза обучения. Агент перемещается по миру сетки с помощью ε-жадной политики относительно Q-ценностей. Эта политика выбирает действие с наивысшей Q-ценностью с вероятностью (1 – ε) и случайное действие с вероятностью ε. После каждого действия агент корректирует оценки Q-ценностей.

Эволюцию оценок максимальной ценности действия Q(S, a) для каждой клетки мира сетки можно визуализировать с помощью тепловой карты. Агент проходит 400 эпизодов. Поскольку обновление происходит только один раз за эпизод, изменения Q-ценностей медленные, и значительная часть состояний остается неисследованной:

Тепловая карта обученных Q-ценностей состояний во время обучения

Тепловая карта оценок Q-ценностей для каждого состояния во время обучения

После 400 эпизодов анализ общего количества посещений каждой клетки дает хорошую оценку средней траектории агента. Как видно на правом графике ниже, агент сошелся к субоптимальной траектории, избегая клетки (4,4) и постоянно следуя вдоль нижней стены.

(слева) Оценка максимальной ценности действия для каждого состояния, (справа) Количество посещений на состояние

Оценка максимальной ценности действия для состояний (слева), количество посещений состояний (справа)

Из-за этой субоптимальной стратегии агент достигает минимума в 21 шаг за эпизод, следуя пути, показанному на графике посещений. Колебания в количестве шагов объясняются ε-жадной политикой, вводящей 10% вероятность случайных действий. Такая политика делает следование вдоль нижней стены разумным способом минимизировать влияние случайностей.

Количество шагов для последних 100 эпизодов обучения (300–400)

Количество шагов для последних 100 эпизодов (300–400)

В итоге, агент Q-обучения сошелся к субоптимальной стратегии, как отмечалось ранее. Кроме того, часть среды остается неисследованной Q-функцией, что не позволяет агенту обнаружить новый оптимальный путь после появления фиолетового портала на 100-м эпизоде.

Эти ограничения производительности связаны с относительно малым числом шагов обучения (400), что ограничивает взаимодействия со средой и исследование, провоцируемое ε-жадной политикой.

Планирование, ключевой элемент модельных методов подкрепляющего обучения, особенно полезно для повышения эффективности выборки и оценки ценностей действий. Dyna-Q и Dyna-Q+ — удачные примеры TD-алгоритмов с шагами планирования.

Dyna-Q

Алгоритм Dyna-Q (динамическое Q-обучение) сочетает модельное подкрепляющее обучение и TD-обучение.

Модельные алгоритмы RL опираются на модель среды для планирования как основного механизма обновления оценок ценности. В отличие от них, бесмодельные алгоритмы полагаются на прямое обучение.

«Модель среды — это все, что агент может использовать для предсказания реакции среды на свои действия» — Подкрепляющее обучение: введение.

В контексте этой статьи модель можно рассматривать как аппроксимацию динамики переходов p(s’, r|s, a). Здесь p возвращает единственную пару следующего состояния и награды для текущей пары состояние-действие.

В стохастических средах различают распределительные модели и выборочные модели: первые дают распределение следующих состояний и наград, вторые — одну пару, выбранную из оцененного распределения.

Модели полезны для симуляции эпизодов, позволяя обучать агента, заменяя реальные взаимодействия шагами планирования, то есть взаимодействиями с симулированной средой.

Агенты с Dyna-Q относятся к классу агентов с планированием, которые комбинируют прямое подкрепляющее обучение и обучение модели. Они обновляют функцию ценности через прямые взаимодействия (как в Q-обучении) и учат модель среды. После каждого прямого взаимодействия выполняются шаги планирования для обновления функции ценности с помощью симулированных взаимодействий.

Простой пример с шахматами

Представьте хорошую партию в шахматы. После каждого хода реакция оппонента позволяет оценить качество хода. Это похоже на получение положительной или отрицательной награды, которая помогает «обновить» стратегию. Если ход приводит к ошибке, вы, вероятно, не повторите его в похожей позиции доски. Пока это аналогично прямому подкрепляющему обучению.

Теперь добавим планирование. Пока оппонент думает, вы мысленно возвращаетесь к каждому предыдущему ходу, чтобы переоценить его качество. Вы можете заметить упущенные слабости или понять, что некоторые ходы лучше, чем казалось. Эти размышления позволяют обновить стратегию. Именно это и есть планирование: обновление функции ценности без взаимодействия с реальной средой, а с ее моделью.

Планирование, действие, обучение модели и прямое RL: расписание агента с планированием

Планирование, действия, обучение модели и прямое RL: цикл агента с планированием

Dyna-Q включает дополнительные шаги по сравнению с Q-обучением:

После каждого прямого обновления Q-ценностей модель сохраняет пару состояние-действие, наблюдаемую награду и следующее состояние. Это называется обучением модели.

После обучения модели Dyna-Q выполняет n шагов планирования:
Случайная пара состояние-действие выбирается из буфера модели (эта пара была наблюдаема в прямых взаимодействиях)
Модель генерирует симулированную награду и следующее состояние
Функция ценности обновляется с использованием симулированных наблюдений (s, a, r, s’)

Псевдокод алгоритма Dyna-Q

Теперь воспроизведем процесс обучения с Dyna-Q, используя n=100. Это означает, что после каждого прямого взаимодействия с средой модель выполняет 100 шагов планирования (обновлений).

Следующая тепловая карта демонстрирует быструю сходимость модели Dyna-Q. Фактически, алгоритму требуется около 10 эпизодов, чтобы найти оптимальный путь. Это происходит потому, что каждый шаг приводит к 101 обновлению Q-ценностей (вместо 1 в Q-обучении).

Тепловая карта оценок Q-ценностей состояний во время обучения

Еще одно преимущество шагов планирования — лучшая оценка ценностей действий по всей сетке. Поскольку косвенные обновления касаются случайных переходов из модели, обновляются даже состояния, далекие от цели.

В Q-обучении ценности действий медленно распространяются от цели, что приводит к неполному картированию сетки.

Оценка максимальной ценности действия (слева), количество посещений (справа)

С Dyna-Q находится оптимальный путь, решающий задачу мира сетки за 17 шагов, как показано красными полосами на графике ниже. Оптимальные результаты достигаются регулярно, несмотря на периодическое вмешательство ε-жадных действий для исследования.

Наконец, хотя Dyna-Q кажется убедительнее Q-обучения благодаря планированию, важно помнить о компромиссе между вычислительными затратами и исследованием реального мира.

Количество шагов для последних 100 эпизодов (300–400)

Dyna-Q+

До сих пор ни один из протестированных алгоритмов не смог найти оптимальный путь, появляющийся после 100-го шага (фиолетовый портал). Оба алгоритма быстро сошлись к оптимальному решению, которое оставалось неизменным до конца обучения. Это подчеркивает необходимость непрерывного исследования на протяжении всего процесса.

Dyna-Q+ во многом похож на Dyna-Q, но включает небольшое изменение. Алгоритм постоянно отслеживает количество временных шагов, прошедших с момента последнего реального взаимодействия с каждой парой состояние-действие.

В частности, для перехода с наградой r, не пробованного в течение τ шагов, Dyna-Q+ планирует, как будто награда равна r + κ √τ, где κ достаточно мало (0.001 в эксперименте).

Это изменение в дизайне наград побуждает агента к постоянному исследованию среды. Оно предполагает, что чем дольше пара состояние-действие не пробовалась, тем выше вероятность изменения ее динамики или ошибки в модели.

Псевдокод алгоритма Dyna-Q+

Как видно на следующей тепловой карте, Dyna-Q+ гораздо активнее в обновлениях по сравнению с предыдущими алгоритмами. До 100-го эпизода агент исследует всю сетку, находит синий портал и первый оптимальный маршрут.

Ценности действий для остальной части сетки снижаются, прежде чем медленно расти снова, поскольку пары состояние-действие в левом верхнем углу некоторое время не исследуются.

Как только фиолетовый портал появляется на 100-м эпизоде, агент обнаруживает новую короткую дорогу, и ценности для всей области повышаются. До завершения 400 эпизодов агент непрерывно обновляет ценности действий для каждой пары, сохраняя периодическое исследование сетки.

Тепловая карта оценок Q-ценностей состояний во время обучения

Благодаря бонусу к наградам модели мы наконец получаем полное картирование Q-функции (каждое состояние или клетка имеет ценность действия).

В сочетании с непрерывным исследованием агент находит новый лучший маршрут (то есть оптимальную политику) по мере его появления, сохраняя предыдущее решение.

Оценка максимальной ценности действия (слева), количество посещений (справа)

Однако компромисс между исследованием и эксплуатацией в Dyna-Q+ имеет цену. Когда пары состояние-действие долго не посещаются, бонус исследования побуждает агента вернуться к ним, что может временно снижать немедленную производительность. Такое поведение исследования приоритизирует обновление модели для улучшения долгосрочных решений.

Это объясняет, почему некоторые эпизоды в Dyna-Q+ достигают до 70 шагов, в то время как в Q-обучении и Dyna-Q максимум 35 и 25 шагов соответственно. Более длинные эпизоды в Dyna-Q+ отражают готовность агента тратить дополнительные шаги на исследование для сбора информации о среде и уточнения модели, даже если это приводит к краткосрочному снижению производительности.

В отличие от этого, Dyna-Q+ регулярно достигает оптимальной производительности (показанной зелеными полосами на графике ниже), чего не добиваются предыдущие алгоритмы.

Количество шагов для последних 100 эпизодов (300–400)

Обзор и сравнение алгоритмов

Для выявления ключевых различий между алгоритмами используются две метрики (результаты зависят от входных параметров, которые были одинаковы для всех моделей в целях простоты):

Количество шагов за эпизод: эта метрика характеризует скорость сходимости алгоритмов к оптимальному решению. Она также описывает поведение после сходимости, особенно в плане исследования.
Средняя кумулятивная награда: процент эпизодов, приводящих к положительной награде

Анализ количества шагов за эпизод (см. график ниже) раскрывает несколько аспектов модельных и бесмодельных методов:

Эффективность модельных методов: Модельные алгоритмы (Dyna-Q и Dyna-Q+) более эффективны по выборке в этом мире сетки (это свойство наблюдается в RL в целом). Они планируют заранее с помощью изученной модели среды, что приводит к более быстрой сходимости к почти оптимальным или оптимальным решениям.
Сходимость Q-обучения: Q-обучение, хотя и сходится в итоге к почти оптимальному решению, требует больше эпизодов (125). Важно отметить, что Q-обучение выполняет только 1 обновление за шаг, в отличие от множественных обновлений в Dyna-Q и Dyna-Q+.
Множественные обновления: Dyna-Q и Dyna-Q+ выполняют 101 обновление за шаг, что ускоряет сходимость. Однако цена за эту эффективность выборки — вычислительные затраты (см. раздел времени выполнения в таблице ниже).
Сложные среды: В более сложных или стохастических средах преимущество модельных методов может уменьшиться. Модели могут вносить ошибки или неточности, приводя к субоптимальным политикам. Поэтому это сравнение следует воспринимать как обзор сильных и слабых сторон подходов, а не прямое сопоставление производительности.

Сравнение количества шагов за эпизод, усредненное по 100 прогонам

Теперь рассмотрим среднюю кумулятивную награду (ACR), которая отражает процент эпизодов, в которых агент достигает цели (поскольку награда 1 за цель и 0 за ловушку), ACR вычисляется как:

Формула ACR

Где N — число эпизодов (250), K — число независимых прогонов (100), а Rn,k — кумулятивная награда за эпизод n в прогоне k.

Вот разбор производительности всех алгоритмов:

Dyna-Q быстро сходится и достигает наивысшей общей отдачи с ACR 87%. Это означает эффективное обучение и достижение цели в значительной доле эпизодов.
Q-обучение также достигает похожего уровня производительности, но требует больше эпизодов для сходимости, что объясняет немного более низкий ACR в 70%.
Dyna-Q+ быстро находит хорошую политику, достигая кумулятивной награды 0.8 уже после 15 эпизодов. Однако вариабельность и исследование, вызванное бонусной наградой, снижают производительность до 100-го шага. После 100 шагов улучшение начинается с обнаружением нового оптимального пути. Тем не менее, краткосрочное исследование ухудшает производительность, приводя к ACR 79%, что ниже, чем у Dyna-Q, но выше, чем у Q-обучения.

Сравнение кумулятивной награды за эпизод, усредненное по 100 прогонам

Заключение

В этой статье мы изложили базовые принципы обучения с временными разностями и применили Q-обучение, Dyna-Q и Dyna-Q+ к специально созданному миру сетки. Дизайн этого мира сетки помогает подчеркнуть важность непрерывного исследования как способа обнаружения и использования новых оптимальных политик в изменяющихся средах. Различия в производительности (оцененные по количеству шагов за эпизод и кумулятивной награде) иллюстрируют сильные и слабые стороны этих алгоритмов.

В обзоре модельные методы (Dyna-Q, Dyna-Q+) выигрывают в эффективности выборки по сравнению с бесмодельными (Q-обучение), но проигрывают в вычислительной эффективности. Однако в стохастических или более сложных средах неточности модели могут мешать производительности и приводить к субоптимальным политикам.

Обучение с временными разностями и роль исследования

Среда эксперимента

Введение в обучение с временными разностями

Детали реализации

Q-обучение

Dyna-Q

Простой пример с шахматами

Dyna-Q+

Обзор и сравнение алгоритмов

Заключение

Горячее