Биологию, лежащую в основе обучения с подкреплением, можно найти в разделе Оперантное обусловливание и вознаграждение.

Обучение с подкреплением (RL) - это обучение программного агента тому, как вести себя в окружающей среде, сообщая ему, насколько хорошо он это делает. Это область машинного обучения, вдохновленная бихевиористской психологией.

Обучение с усилением отличается от обучения под наблюдением тем, что правильные входы и выходы никогда не показываются. Кроме того, в отличие от контролируемого обучения, обучение с подкреплением обычно происходит по ходу обучения (онлайн-обучение). Это означает, что агенту приходится выбирать между исследованием и тем, что он знает лучше всего.