rl-math
policy 대한 reward의 수렴 증명
여기서 다음 확률 분포로의 이동 T가 선형이 보장되는 이유는,
결국 수렴 상태인 mu는 T의 eigenvector가 된다. (eigenvalue는 1)
정상 분포 찾기
그래서 mu를 구하려면 T 행렬의 eigenvector 찾으면 되지만, T를 직접 구하는건 어렵다. 그래서 대신 쓰는 방법이,
샘플링으로 근사 (monte carlo)
적당히 오래 굴려보면 결과가 mu에 수렴할 것.
bellman equation
이 식을 반복적으로 풀다 보면 v가 특정 점으로 수렴하고, 이게 바로 고유 벡터 되는 것.