value function

보상 함수는 지금 당장 행동이 좋은지를 평가한다. 가치 함수는 미래의 보상들을 모두 고려하는 것.

state-value function은 현 상태에서 앞으로 받을 보상들의 기댓값.