Q-function

q-function: action-value function - 지금 상태에서 특정 action을 하고 이후부터는 policy로 움직인다 가정할때 기대되는 총 보상의 합.

Q-learning: q function이 제일 높은 action을 고르면 그게 최선의 행동이다

DQN: 표 대신에 mlp를 써서 Q를 예측하기. s를 입력으로, a에 대한 q를 출력으로.