rl-math

policy 대한 reward의 수렴 증명

θ=argmaxθ1Tt=1TE(st,at)pθ(st,at)[r(st,at)]μ=[P(s1,a1)P(s1,a2)P(s2,a1)P(s2,a2)P(s3,a1)P(s3,a2)]=pθ(s,a)μ=Tμ

여기서 다음 확률 분포로의 이동 T가 선형이 보장되는 이유는,

pt+1(s)=p(s|s,a)pt(s)ds()

결국 수렴 상태인 mu는 T의 eigenvector가 된다. (eigenvalue는 1)

정상 분포 찾기

그래서 mu를 구하려면 T 행렬의 eigenvector 찾으면 되지만, T를 직접 구하는건 어렵다. 그래서 대신 쓰는 방법이,

샘플링으로 근사 (monte carlo)

적당히 오래 굴려보면 결과가 mu에 수렴할 것.

bellman equation

V(s)=E[r+γV(s)]

이 식을 반복적으로 풀다 보면 v가 특정 점으로 수렴하고, 이게 바로 고유 벡터 되는 것.