이 글은 서강대 가상융합 전문대학원(구 메타버스 전문대학원) 강화학습 자료를 기반으로 작성되었습니다.
1강: 인공지능은 어떻게 걷는 법을 배우나?
우리가 인공지능(AI)이라 부르는 개념의 중심에는 ‘학습’이 있다. 그러나 학습에도 여러 형태가 있다. 데이터를 주어 정답을 알려주는 지도학습(supervised learning), 정답 없이 패턴을 스스로 찾아내는 비지도학습(unsupervised learning), 그리고 주요 언급 내용인 ‘강화학습(reinforcement learning)’은 그 중에서도 가장 인간과 닮은 학습 방식이다. 강화학습은 지도학습처럼 누군가 정답을 알려주지 않는다. 대신, 세상과 부딪히며 시행착오를 반복한다. 잘한 행동에는 보상을 받고, 잘못된 행동에는 벌을 받는다. 이 단순한 구조 속에서 에이전트(agent)는 스스로 ‘무엇이 좋은 행동인지’를 학습해 나간다. 이는 아이가 걸음마를 배우는 과정과 닮았다. 넘어지면 아프고, 일어서면 기쁘다. 인간의 학습이 감각적 피드백에 의존하듯, 인공지능도 환경(environment)의 보상(reward)을 통해 성숙해간다.
딥러닝의 발전 이후 인공지능은 ‘정답을 맞추는 기계’에서 ‘스스로 행동을 결정하는 지능’으로 진화하고 있다. 알파고(AlphaGo)는 바둑판이라는 환경에서 시행착오를 통해 인간 최고수를 넘어섰고, 자율주행차는 도로라는 복잡한 세계 속에서 스스로 판단한다. 이 모든 것은 강화학습의 기본 원리, 즉 “행동(Action)–보상(Reward)–학습(Learning)”의 반복을 통해 가능했다. 강화학습의 에이전트는 현재의 상태(state)를 관찰하고, 여러 행동(action) 중 하나를 선택한다. 그 결과로 환경이 주는 보상(reward)을 받으며, 이 경험을 통해 어떤 행동이 더 좋은 결과를 가져오는지 학습한다. 이러한 반복 과정을 통해 에이전트는 점점 더 효율적인 행동 전략을 스스로 찾아낸다.
인간의 삶은 선택의 연속이다. 새로운 길을 시도할 것인가(탐험, exploration), 아니면 이미 검증된 길을 따를 것인가(활용, exploitation)? 강화학습의 핵심 과제도 바로 이 ‘탐험–활용의 딜레마’다. 탐험은 불확실하지만 새로운 기회를 가져온다. 반면, 활용은 안정적이지만 더 나은 결과를 놓칠 수 있다. 마치 창업자가 새로운 시장에 도전할지, 아니면 기존 고객을 더 깊이 파고들지 고민하는 것과 같다. 강화학습의 에이전트도 매 순간 이 고민을 반복한다. “이 행동을 시도하면 어떤 보상을 얻을까?” 정답은 없다. 오직 시행착오를 통해, 경험의 통계로부터 학습할 뿐이다. 그래서 강화학습의 데이터는 독립적(i.i.d.)이지 않다. 매 순간이 앞선 선택에 의존한다. 이 ‘순차적 상관성’이 바로 강화학습을 어렵게 하지만 동시에 매혹적으로 만든다.
강화학습의 핵심은 ‘상태(state)–행동(action)–보상(reward)’의 반복이다. 이 과정을 수식으로 표현하면 복잡하지만, 간단한 예로 살펴보면 이해가 쉽다. 예를 들어, 자율주행 자동차를 생각해보자. 도로의 현재 상황이 ‘상태(S)’다. 신호등이 빨간색인지, 앞차와의 거리가 얼마나 되는지가 여기에 포함된다. 자동차가 선택할 수 있는 ‘행동(A)’은 정지, 감속, 가속 등이다. 이때 ‘전이확률(P)’은 특정 행동을 했을 때 다음 상황이 어떻게 변할지를 나타낸다. 가속을 하면 앞차와의 거리가 좁혀질 확률이 높고, 정지하면 사고 확률이 낮아진다. ‘보상(r)’은 그 결과에 따라 주어진다. 신호를 잘 지키면 +1, 급정지나 충돌 위험이 있으면 −1 같은 식이다. 마지막으로 ‘감쇠계수(γ)’는 미래 보상에 얼마나 가치를 둘지를 조정한다. 예를 들어, “지금 신호를 어기면 빠르지만 위험하다”와 “조금 기다리면 더 안전하다” 중 하나를 선택할 때, γ는 얼마나 미래의 이익을 중요하게 생각할지를 결정한다. 즉, 강화학습의 에이전트는 순간의 선택이 미래에 어떤 결과를 낳는지 확률적으로 판단하며, 이 과정을 수천 번 반복하면서 가장 높은 보상을 얻는 행동 패턴을 스스로 학습한다. 결국 MDP란, 이런 학습 구조를 수학적으로 정리한 ‘세상의 규칙표’인 셈이다.
자율주행 자동차가 단순히 “규칙대로 움직이는 기계”가 아니라, 시간이 지날수록 더 안전하고 효율적으로 운전하는 학습형 운전자가 되려면 무엇을 기준으로 학습해야 할까? 그 핵심이 바로 정책(Policy)이다. 정책 π(a|s)는 “지금 도로 상황(s)일 때 어떤 행동(a)을 선택할지”를 결정하는 규칙이다. 예를 들어, 신호가 녹색이고 앞차가 멀다면 가속할 확률이 높고, 앞차가 너무 가깝거나 보행자가 감지되면 감속하거나 정지할 확률이 높아진다. 이 확률적 판단의 집합이 자동차의 ‘운전 성격’을 만든다. 하지만 모든 정책이 좋은 건 아니다. 운전 중 급출발을 자주 하는 정책은 빠를 수는 있어도 위험하다. 반대로 지나치게 조심스러운 정책은 안전하지만 도착이 너무 늦어질 수 있다. 이 균형을 평가하는 기준이 바로 가치함수(Value Function)다. 가치함수는 “이 상황에서 앞으로 얼마나 좋은 결과를 기대할 수 있는가”를 계산한다. 예를 들어,
- 신호가 막 바뀐 교차로에서 잠시 기다리면 앞으로 신호 위반 위험이 줄고 전체 주행 점수가 높아질 수 있다.
- 반면, 무리하게 출발하면 당장은 빨라도 이후 사고 위험으로 전체 보상이 줄어든다.
이렇게 정책에 따라 기대되는 장기적 보상을 수치화한 것이 상태가치함수 $v_{\pi} (s)$이고, 특정 행동을 기준으로 계산한 것이 행동가치함수 $q_{\pi}(s,a)$이다. 그렇다면 자동차는 어떻게 ‘좋은 정책’을 찾아낼까? 여기서 등장하는 것이 벨만 방정식(Bellman Equation)이다. 이 방정식은 자동차가 지금의 행동을 평가할 때, “현재 보상(예: 안전 주행 점수)”뿐 아니라 “다음 상황에서의 기대 보상”도 함께 고려하도록 만든다. 예를 들어, 지금 감속해서 안전하게 신호를 지키면 +1점을 받고, 그 결과 다음 신호 구간에서도 안정적인 주행이 가능해 +3점을 더 받을 수 있다면, 현재 행동의 총 가치는 1 + (감쇠계수 γ × 3)이다. 즉, 자동차는 즉시 보상 + 미래 보상의 합을 최대화하도록 학습한다. 벨만 방정식은 이 과정을 수학으로 표현한 규칙이지만, 직관적으로는 이렇게 이해할 수 있다: “지금의 좋은 결정은, 미래의 좋은 결과로 이어지는 결정이다.” 이 간단한 원리가 강화학습 전체의 중심축이다. 자율주행 자동차뿐 아니라, 게임 AI, 로봇, 추천 시스템 모두 이 논리 위에서 “지금 무엇을 해야 앞으로 더 나아질까?”를 배우는 것이다.
자율주행 자동차가 학습을 반복하면서 점점 나아지려면, 단순히 보상을 받는 것만으로는 부족하다. 자동차는 언제나 “지금의 선택보다 더 나은 선택이 있을까?”를 고민해야 한다. 이때 등장하는 개념이 바로 탐욕정책(Greedy Policy)이다. 탐욕정책은 말 그대로 “지금 이 순간 가장 높은 보상을 줄 것 같은 행동”을 고르는 방식이다. 예를 들어, 자동차가 교차로에 도착했을 때, ‘정지’의 예상 보상(q)이 5점이고, ‘가속’의 예상 보상(q)이 1점이라면, 탐욕정책은 주저 없이 ‘정지’를 선택한다. 즉, 가능한 행동 중 가장 큰 q값(기대 보상)을 가진 행동을 택하는 것이다. 이렇게 선택된 새로운 정책을 π′(a|s)라고 하면, 이 π′은 기존 정책 π보다 항상 같거나 더 좋은 결과를 낸다. 이 원리를 수학적으로 정리한 것이 바로 정책 개선 정리(Policy Improvement Theorem)다. 자동차가 여러 번의 시뮬레이션을 거치면서 “지금보다 더 나은 행동을 찾는 과정”을 반복하면, 결국 가장 효율적인 정책—즉, 최적 정책(π*)—에 도달하게 된다.
이를 자율주행 상황으로 비유하면 이렇다. 초기에는 자동차가 “가속 70%, 감속 30%”로 움직일 수 있다. 하지만 학습이 진행되면 “가속 시 위험도가 높고, 정지 시 보상이 크다”는 걸 알게 된다. 결국 자동차는 “정지 100%” 정책으로 바꾼다. 이것이 바로 정책 개선이다—현재의 가치함수를 기준으로, 더 나은 정책을 만들어내는 과정이다. 이 원리는 강화학습의 핵심 메커니즘인 정책 반복(Policy Iteration)과 가치 반복(Value Iteration)으로 이어진다. 자동차는 현재 정책으로 환경을 평가하고(Policy Evaluation), 그 결과를 이용해 더 좋은 정책을 만든다(Policy Improvement). 이 과정을 계속 반복하면서 학습은 점점 안정화되고, 마침내 인간 운전자 수준의 안전하고 효율적인 주행 전략을 스스로 찾아낸다. 즉, 탐욕정책(Greedy Policy)으로 현재 가능한 행동 중 가장 높은 기대 보상을 선택하고, 정책 개선(Policy Improvement)을 통해 평가 결과를 바탕으로 기존 정책을 더 나은 방향으로 조정한다. 이 두 단계를 무한히 반복하는 것이 강화학습의 본질이다. 자율주행 자동차가 점점 더 똑똑해지는 이유는 “무작정 배우는 것”이 아니라, “조금 더 나은 선택을 계속 시도하기 때문”이다.
'Reinforcement learning' 카테고리의 다른 글
| [강화학습 정복하기] 3강: 첫 번째 실습 CartPole: 엡실론-그리디(ε-greedy)로 균형 잡기 (0) | 2025.12.22 |
|---|---|
| [강화학습 정복하기] 2강: 강화학습을 위한 PyTorch 기초: 텐서부터 오토그라드까지 (0) | 2025.12.22 |
| Lecture 10: Classic Games (0) | 2025.03.28 |
| Lecture 9: Exploration and Exploitation (0) | 2025.03.28 |
| Lecture 8: Integrating Learning and Planning (0) | 2025.03.28 |