Обучение с применением подкрепления

Биологию, лежащую в основе обучения с подкреплением, можно найти в разделе Оперантное обусловливание и вознаграждение.

Обучение с подкреплением (RL) - это обучение программного агента тому, как вести себя в окружающей среде, сообщая ему, насколько хорошо он это делает. Это область машинного обучения, вдохновленная бихевиористской психологией.

Обучение с усилением отличается от обучения под наблюдением тем, что правильные входы и выходы никогда не показываются. Кроме того, в отличие от контролируемого обучения, обучение с подкреплением обычно происходит по ходу обучения (онлайн-обучение). Это означает, что агенту приходится выбирать между исследованием и тем, что он знает лучше всего.

Введение

Система обучения с подкреплением состоит из политики ( π {\displaystyle \pi } $\pi$ ), функции вознаграждения ( R {\displaystyle R} $R$ ), функции ценности ( v {\displaystyle v} $v$ ) и дополнительной модели окружающей среды.

Политика говорит агенту, что делать в определенной ситуации. Это может быть простая таблица правил или сложный поиск правильного действия. Политики могут быть даже стохастическими, то есть вместо правил политика назначает вероятности для каждого действия. Политика сама по себе может заставить агента что-то делать, но она не может сама по себе обучаться.

Функция вознаграждения определяет цель для агента. Она принимает состояние (или состояние и действие, предпринятое в этом состоянии) и возвращает число, называемое вознаграждением, которое говорит агенту, насколько хорошо находиться в этом состоянии. Задача агента - получить как можно большее вознаграждение в долгосрочной перспективе. Если действие приносит малое вознаграждение, агент, вероятно, предпримет более эффективное действие в будущем. В биологии сигналы вознаграждения, такие как удовольствие или боль, используются для того, чтобы организмы оставались живыми и могли размножаться. Сигналы вознаграждения также могут быть стохастическими, как игровые автоматы в казино, где иногда они платят, а иногда нет.

Функция ценности говорит агенту, какое вознаграждение он получит, следуя политике π {\displaystyle \pi } $\pi$ начиная с состояния s {\displaystyle s} $s$ . Она представляет, насколько желательно находиться в определенном состоянии. Поскольку функция ценности не дается агенту напрямую, он должен догадаться или оценить ее, основываясь на вознаграждении, которое он получил до сих пор. Оценка функции ценности является наиболее важной частью большинства алгоритмов обучения с подкреплением.

Модель - это мысленная копия окружающей среды. Она используется для планирования будущих действий.

Зная это, мы можем говорить об основном цикле для эпизода обучения с подкреплением. Агент взаимодействует с окружающей средой в дискретных временных шагах. Подумайте об этом как о "тик-так" часов. При дискретном времени события происходят только во время "тиков" и "тактов", а не между ними. В каждый момент времени t = 0 , 1 , 2 , 3 , ... {\displaystyle t=0,1,2,3,... } $t=0,1,2,3,...$ , агент наблюдает состояние среды S t {\displaystyle S_{t}} $S_{t}$ и выбирает действие A t {\displaystyle A_{t}} $A_{t}$ на основе политики π {\displaystyle \pi } $\pi$ . На следующем временном шаге агент получает сигнал вознаграждения R t + 1 {\displaystyle R_{t+1}} $R_{t+1}$ и новое наблюдение S t + 1 {\displaystyle S_{t+1}}. $S_{t+1}$ . Функция ценности v ( S t ) {\displaystyle v(S_{t})} $v(S_{t})$ обновляется, используя вознаграждение. Это продолжается до тех пор, пока не будет достигнуто конечное состояние S T {\displaystyle S_{T}} . $S_{T}$

Обучение с применением подкрепления

Введение

Поиск по букве