Policy Improvement Theorem

π^{'} (a | s) = 1 if a = \arg max_{a} Q^{π} (s, a)

새 정책을 만들때 Q가 가장 높은 a에 몰빵하기 (확률 1을 부여)

→ 새 정책이 이전 정책보다 낫거나 최소한 같다.