[강화학습 정복하기] 8강: 가치에서 정책으로-REINFORCE 알고리즘과 정책 그래디언트
·
Reinforcement learning
이 글은 서강대 가상융합 전문대학원(구 메타버스 전문대학원) 강화학습 자료를 기반으로 작성되었습니다. 가치에서 정책으로-REINFORCE 알고리즘과 정책 그래디언트 바로 직전까지 우리는 DQN이 불안정한 학습을 견디기 위해 경험 재생, 타깃 네트워크 등 여러 공학적 장치들이 결합된 하나의 정교한 시스템임을 확인했다. 하지만 DQN을 이용한 CartPole의 막대가 아슬아슬하게 균형을 잡는 모습을 조금 더 깊이 바라보게 된다면, 자연스럽게 새로운 의문이 떠오른다. "우리는 왜 늘 같은 방식으로만 문제를 풀어왔을까?". DQN의 세계관은 명확하다. 언제나 각 행동의 가치인 $Q(s,a)$를 먼저 학습하고, 그중 예상 보상이 가장 큰 행동 하나를 선택하는 방식이다. 즉, 행동은 Q값이라는 점수판에서 파생된 결..