on-policy

환경에서 모델 정책을 따라 행동하고, 결과에 따라 보상을 받음 - 현재 모델의 역량 - 스킬셋 - 표현력의 범위 내에서 policy가 보상 더 받기 위해 즉시 학습하므로 off-policy의 “암기”문제 없다.