rl-math

policy 대한 reward의 수렴 증명

θ^{*} = \arg max_{θ} \frac{1}{T} \sum_{t = 1}^{T} E_{(s_{t}, a_{t}) \sim p_{θ} (s_{t}, a_{t})} [r (s_{t}, a_{t})]

μ = [\begin{matrix} P (s_{1}, a_{1}) \\ P (s_{1}, a_{2}) \\ P (s_{2}, a_{1}) \\ P (s_{2}, a_{2}) \\ P (s_{3}, a_{1}) \\ P (s_{3}, a_{2}) \end{matrix}] = p_{θ} (s, a)

μ = T μ

여기서 다음 확률 분포로의 이동 T가 선형이 보장되는 이유는,

p_{t + 1} (s^{'}) = \int p (s^{'} | s, a) p_{t} (s) d s (확 률 들 의 가 중 합 이 다 음 확 률)

결국 수렴 상태인 mu는 T의 eigenvector가 된다. (eigenvalue는 1)

그래서 mu를 구하려면 T 행렬의 eigenvector 찾으면 되지만, T를 직접 구하는건 어렵다. 그래서 대신 쓰는 방법이,

적당히 오래 굴려보면 결과가 mu에 수렴할 것.

V (s) = E [r + γ V (s^{'})]

이 식을 반복적으로 풀다 보면 v가 특정 점으로 수렴하고, 이게 바로 고유 벡터 되는 것.