이 글은 서강대 가상융합 전문대학원(구 메타버스 전문대학원) 강화학습 자료를 기반으로 작성되었습니다.
가치에서 정책으로-REINFORCE 알고리즘과 정책 그래디언트
바로 직전까지 우리는 DQN이 불안정한 학습을 견디기 위해 경험 재생, 타깃 네트워크 등 여러 공학적 장치들이 결합된 하나의 정교한 시스템임을 확인했다. 하지만 DQN을 이용한 CartPole의 막대가 아슬아슬하게 균형을 잡는 모습을 조금 더 깊이 바라보게 된다면, 자연스럽게 새로운 의문이 떠오른다. "우리는 왜 늘 같은 방식으로만 문제를 풀어왔을까?".
DQN의 세계관은 명확하다. 언제나 각 행동의 가치인 $Q(s,a)$를 먼저 학습하고, 그중 예상 보상이 가장 큰 행동 하나를 선택하는 방식이다. 즉, 행동은 Q값이라는 점수판에서 파생된 결과물이며, 정책은 가장 큰 점수를 주는 행동을 고르는 규칙($argmax_{a} Q(s,a)$ )으로 결정된다. 이 방식은 CartPole처럼 왼쪽 아니면 오른쪽이라는 명확한 선택지가 있는 이산(discrete) 환경에서는 매우 자연스럽고 강력하다.
그러나 세상의 문제는 그렇게 단순하지 않다. 로봇 팔을 어느 각도로 미세하게 움직일지, 자율주행 자동차의 핸들을 몇 도나 돌릴지처럼 행동의 범위가 연속적이고 사실상 무한에 가까운 문제들이 존재한다. 이런 상황에서 모든 행동의 점수를 매기고 그중 최고를 하나하나 비교하여 고르는 방식은 비효율적이며 때로는 불가능하다. 바로 이 지점에서 강화학습은 기존의 해법을 확장하는 것이 아니라, 전혀 다른 관점의 접근을 필요로 하게 된다.
이제 우리는 Q값을 통해 정책을 '뽑아내는' 간접적인 방식이 아니라, 정책 그 자체를 직접 학습 대상으로 삼는 대담한 접근을 시도한다. 이것이 바로 정책 그래디언트(Policy Gradient)이다. 행동의 가치를 외워서 비교하는 대신, 주어진 상태에서 어떤 행동을 얼마나 자주 선택할지를 확률로 표현하고, 그 확률을 직접 조정해 나가는 방식이다.
가치 기반 방법(DQN)이 "가장 큰 점수를 주는 행동"을 찾는 결정적(deterministic) 방식에 익숙했다면, 정책 기반 방법은 확률적(stochastic) 정책을 다룬다. 이는 연속적인 행동을 자연스럽게 다룰 수 있을 뿐만 아니라, 가위바위보와 같이 확률적으로 행동을 섞는 것이 더 유리한 상황에서도 유연하게 대처할 수 있다는 강점이 있다. 이제 학습의 주인공은 '점수표(Q)'가 아니라 '행동을 선택하는 확률 ($\pi_{\theta}$)' 그 자체가 된다.
이를 위해 우리는 정책을 숫자로 표현하는 '정책 매개변수화'를 수행한다. 이산 행동이라면 범주형(Categorical) 분포를 사용하여 확률을 뽑고, 연속 행동이라면 가우시안(Gaussian) 분포를 사용하여 평균과 표준편차를 신경망이 출력하게 만든다.
새로운 주인공이 등장했으니 목표도 새로워진다. 우리의 목표는 기대 수익 을 최대화하는 것이다. 여기서 ${\theta}$는 정책을 결정하는 파라미터 전체를 의미하며, 이전에는 가치 함수의 모양을 결정했다면 이제는 행동을 선택하는 확률 구조 자체를 규정하는 역할을 한다.
하지만 치명적인 문제가 있다. 기대 수익을 최대화하려면 미분을 해서 경사(Gradient)를 따라가야 하는데, 기대 수익을 계산하려면 환경이 어떻게 변할지(환경 동역학 $P_{\tau}$), 를 알아야 한다. 하지만 우리는 바람이 어떻게 불지, 바닥이 얼마나 미끄러울지와 같은 세상의 물리 법칙을 완벽하게 알 수 없다. 환경을 모르는데 어떻게 미분을 할 수 있을까?
여기서 정책 그래디언트 이론의 핵심적인 반전인 로그 미분 트릭(Log-Derivative Trick)이 등장한다. 수학적인 마법을 부리면, 환경의 복잡한 물리 법칙이 미분식에서 사라지고 오직 우리가 조절하는 정책 파라미터의 로그 확률만 남게 된다. 즉, 환경의 내부 원리를 모르더라도 실제로 부딪혀보고 얻은 샘플만 있으면 학습이 가능해진다는 뜻이다. 이 이론을 직관적으로 풀이하면 다음과 같다. "높은 수익을 가져온 행동은 그 행동이 선택될 확률을 높이고, 낮은 수익을 가져온 행동은 확률을 낮춘다. 그리고 그 조정의 강도는 결과(Return)가 얼마나 좋았는지에 비례한다.".
이 이론을 실제로 구현한 것이 바로 REINFORCE 알고리즘이다. 이름 그대로 몬테카를로 방식을 사용하여, 환경과 상호작용하며 얻은 실제 궤적을 통해 정책을 업데이트한다. 과정은 놀라울 정도로 단순하다. 정책 네트워크를 만들고, 에피소드를 끝까지 실행해보고, 결과 점수(Return, $G_t$)를 계산한 뒤, 그 점수를 바탕으로 확률을 조정한다. 정답 라벨 없이 오직 결과 점수만 보고 행동의 확률을 조금씩 바꾸는 것이다.
하지만 이론적으로 완벽해 보이는 이 방식은 현실에서 큰 벽에 부딪힌다. 바로 분산(Variance) 문제다. 이론적으로는 샘플을 무한히 많이 모으면 정확한 방향을 찾을 수 있지만, 현실의 샘플 하나하나는 너무나 시끄럽다(noisy). 예를 들어, 운 좋게 한 번 잘한 것을 실력으로 착각하거나, 실력은 좋았는데 운 나쁘게 결과가 안 좋을 수도 있다. 샘플 수가 적을수록 추정 방향이 쉽게 뒤집히고 학습이 크게 흔들린다. 결과적으로 학습 속도가 느리고 불안정하며, 데이터를 많이 필요로 하게 된다.
이 흔들리는 학습을 바로잡기 위해 연구자들은 '분산 감소 기법(Variance Reduction Technique)'이라는 처방전을 내놓았다.
첫 번째 처방은 Reward-to-go이다. 기존에는 에피소드 전체의 점수를 보고 모든 행동을 평가했지만, 사실 현재의 행동은 과거의 보상과는 아무런 상관이 없다. 이미 지나간 과거의 점수까지 끌고 와서 현재 행동을 평가하면 노이즈만 커질 뿐이다. 따라서 "지금 이 시점 이후에 얻은 점수"만을 가지고 행동을 평가하자는 것이다.
두 번째 처방은 베이스라인(Baseline)이다. 점수의 절대적인 크기보다는 '평균보다 얼마나 잘했는가'가 더 중요하다. 그래서 전체 점수에서 기준점(Baseline)을 뺀 값을 사용한다. 놀랍게도 베이스라인을 도입해도 학습의 방향(기대값)은 변하지 않으면서 분산만 효과적으로 줄여준다.
여기서 어드밴티지(Advantage)라는 개념이 탄생한다. 행동의 결과인 $G_t$ 에서 상태의 평균적인 가치인 $V(s)$를 뺀 값 ( $G_t - V(s) $ 을 사용하여, "이 행동이 평소보다 얼마나 더 나은 선택이었는지"를 평가한다. 이렇게 하면 그래디언트의 신호가 한층 정제되고 안정적으로 변한다.
단순히 분산을 줄이는 것만으로는 충분하지 않다. 정책이 너무 빨리 특정 행동에 고착되는 것을 막기 위해 엔트로피 정규화를 도입하여 에이전트가 다양한 시도를 하도록 장려한다. 이는 마치 배우가 너무 일찍 한 가지 연기 톤만 고집하지 않도록 강제하는 것과 같다.
이 모든 요소가 결합되면서 REINFORCE는 단순한 수식이 아니라 하나의 견고한 학습 시스템으로 완성된다. 환경과 상호작용하며 데이터를 모으고, 보상과 어드밴티지를 계산하며, 정책(배우)과 가치(평론가) 네트워크를 각각 업데이트하는 구조가 만들어진다.
강화학습은 복잡한 수식의 나열이 아니라, 배우(Policy)와 평론가(Value)가 역할을 나눠 협업하는 과정이다. REINFORCE 알고리즘의 시행착오와 이를 극복하기 위한 베이스라인, 어드밴티지 같은 기법들은 이후 등장할 더욱 강력한 알고리즘인 Actor-Critic의 토대가 된다. 결국 우리는 실패와 불안정성을 극복하는 과정에서 기계가 세상을 더 잘 이해하도록 돕는 방법을 배우고 있는 것이다.
'Reinforcement learning' 카테고리의 다른 글
| [강화학습 정복하기] 10강: PPO 완벽 해부: 가장 강력하고 안정적인 표준 알고리즘 (2) | 2025.12.22 |
|---|---|
| [강화학습 정복하기] 9강: 배우와 평론가의 만남: Actor-Critic (A2C)과 GAE (0) | 2025.12.22 |
| [강화학습 정복하기] 7강: DQN 성능 높이기-Dueling DQN 구조와 학습 안정화 팁 (0) | 2025.12.22 |
| [강화학습 정복하기] 6강: DQN의 탄생-딥러닝이 강화학습을 만났을 때 (Replay Buffer & Target Network) (0) | 2025.12.22 |
| [강화학습 정복하기] 5강: Q-learning vs SARSA: 지도 없이 길을 찾는 방법 (0) | 2025.12.22 |