强化学习基本过程

强化学习基本要素

模型
政策
价值

深度学习不同点

没有标签，只有反馈
学习的过程来自于试错
学习的反馈有延迟
动作会影响数据
观察数据有时间的关联

马尔科夫基本过程（MDP）

马尔科夫过程的下一状态只取决于当前状态

马尔科夫奖励过程

S：state
R: Reward, $R (s_{t} = s)$
Discount factor $γ \in [0, 1]$
P:dynamics/transition model

Horizon

Number of maximum time steps in each episode
Can be infinite,otherwise called finite Markov (reward) Process

Return

G_{t} = R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} . . . γ^{T - t - 1} R_{T}

可以看出随着时间变化，奖励值会衰减，只有离开某个状态才能获得奖励，所以奖励来自于未来的状态

state value function Vt(s) for a MRP

Expected

V_{t} (s) = E [G_{t} | s_{t} = s] = E [R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} . . . γ^{T - t - 1} R_{T} | s_{t} = s]

Discount Factor $γ$

可以作为强化学习的超参数调整

当 $γ = 0$ ，奖励只取决于当前状态

Bellman equation

Bellman方程描述了状态的迭代关系

V (s) = R (s) + γ \sum_{s^{'} \in S} P (s^{'} | s) V (s^{'})

也可以写为矩阵的形式

我们可以通过矩阵求逆的过程求出V

V = R + γ P V \to V = (1 - γ P)^{- 1} R

矩阵求逆的计算量太大，所以我们一般用迭代的方法求解

动态规划法
蒙特卡洛采样法
Temporal-Difference learning

蒙特卡洛法

动态规划

马尔科夫决策过程

增加了一个动作

S：state
A: action
R: Reward, $R (s_{t} = s)$
Discount factor $γ \in [0, 1]$
P:dynamics/transition model $P (s_{t + 1} = s^{'} | s_{t} = s, a_{t} = a$

Policy

policy决定了当前采取的策略
Policy： $π (a | s) = P (a_{t} = a | a_{t} = s)$
Policies are stationary (time-independent)， $A_{t} ～ π (a | s)$ for any t > 0

Given an MDP $(S, A, P, R, γ)$ and a policy $π$
The state sequence S1, S2,… is a Markov process $(S, P^{π})$
The state and reward sequence S1,R2,S2, R2,… is a Markov reward
process (S, PT,R”, ) where,

P^{π} (s^{'} ∣ s) = \sum_{a \in A} π (a ∣ s) P (s^{'} ∣ s, a) R^{π} (s) = \sum_{a \in A} π (a ∣ s) R (s, a)

当policy $π$ 已知时，马尔科夫决策过程会转化为马尔科夫奖励过程

马尔科夫决策过程的下一状态先由当前状态采取的决策决定

State Value Function

v^{π} (s) = E_{π} [G_{t} ∣ s_{t} = s]

action-value function

q^{π} (s, a) = E_{π} [G_{t} ∣ s_{t} = s, A_{t} = a]

状态价值函数和动作价值函数的关系

v^{π} (s) = \sum_{a \in A} π (a ∣ s) q^{π} (s, a)

Bellman Equation

v^{π} (s) = E_{π} [R_{t + 1} + γ v^{π} (s_{t + 1}) ∣ s_{t} = s] = \sum_{a \in A} π (a ∣ s) q^{π} (s, a) = \sum_{a \in A} π (a ∣ s) (R (s, a) + γ \sum_{s^{'} \in S} P (s^{'} ∣ s, a) v^{π} (s^{'}))

q^{π} (s, a) = E_{π} [R_{t + 1} + γ q^{π} (s_{t + 1}, A_{t + 1}) ∣ s_{t} = s, A_{t} = a] = R_{s}^{a} + γ \sum_{s^{'} \in S} P (s^{'} ∣ s, a) v^{π} (s^{'}) = R (s, a) + γ \sum_{s^{'} \in S} P (s^{'} ∣ s, a) \sum_{a^{'} \in A} π (a^{'} ∣ s^{'}) q^{π} (s^{'}, a^{'})

$v^{π}$ 表示了采用policy $π$ 得到奖励的期望

马尔科夫决策过程的预测和控制

预测
- 预测价值
控制
- 寻找最佳策略

predition

尝试所有策略，收敛后得到价值函数

optimal value function and policy

v^{*} (s) = m a x_{π} v^{π} (s) π^{*} (s) = a r g m a x_{π} v^{π} (s)

如何寻找最佳的policy?
最佳行为可以定义为

π^{*} (a ∣ s) = {\begin{cases} 1, & if a = \arg max_{a \in A} q^{*} (s, a) \\ 0, & otherwise \end{cases}

policy search

策略搜索的方法主要有以下两种

policy iteration

策略迭代算法有两个步骤

估计当前政策价值函数
采用贪心算法改进策略

π^{'} = g r e e d y (v^{π})

policy improvwment

计算当前策略价值 $q^{π_{i}} (s, a) = R (s, a) + γ \sum_{s^{'} \in S} P (s^{'} ∣ s, a) v^{π_{i}} (s^{'})$
计算新政策价值 $π_{i + 1} (s) = \underset{a}{\arg max} q^{π_{i}} (s, a)$

q^{π} (s, π^{'} (s)) = max_{a \in A} q^{π} (s, a)

value iteration

v (s) = max_{a \in A} (R (s, a) + γ \sum_{s^{'} \in S} P (s^{'} ∣ s, a) v (s^{'}))