Q-function
q-function: action-value function - 지금 상태에서 특정 action을 하고 이후부터는 policy로 움직인다 가정할때 기대되는 총 보상의 합.
Q-learning: q function이 제일 높은 action을 고르면 그게 최선의 행동이다
Select a result to preview
q-function: action-value function - 지금 상태에서 특정 action을 하고 이후부터는 policy로 움직인다 가정할때 기대되는 총 보상의 합.
Q-learning: q function이 제일 높은 action을 고르면 그게 최선의 행동이다