이 글은 서강대 가상융합 전문대학원(구 메타버스 전문대학원) 강화학습 자료를 기반으로 작성되었습니다.
게임을 넘어 현실로-인간과 소통하고 미래를 설계하는 지능
지금까지의 강화학습은 "점수(Reward)"를 얻기 위해 시행착오를 겪는 과정이었다. 게임에서 이기면 +1점, 지면 -1점. 이렇게 명확한 점수가 주어지는 세상에서 기계는 날아다녔다. 하지만 현실은 그렇게 친절하지 않다. 챗봇(Chatbot)이 뱉은 말이 "좋은 대답"인지 아닌지, 점수로 딱 잘라 말할 수 있는가? 바둑처럼 수많은 수가 얽히고설킨 복잡한 문제에서, 지금 이 한 수가 정말 최선인지 바로 알 수 있는가?
현대 강화학습은 바로 이 난제, "명확한 보상이 없거나, 너무 복잡해서 보상을 알기 어려운 문제"를 해결하기 위해 두 가지 방향으로 진화하였다. 하나는 인간의 판단(Human Feedback)을 기계의 학습 신호로 삼는 것이고, 다른 하나는 기계가 스스로 미래를 탐색(Search)하며 길을 찾는 것이다. RLHF와 DPO는 전자의 길을, MCTS와 AlphaZero는 후자의 길을 대표하는 기술들이다.
1. 인간의 취향을 배우다: RLHF (Reinforcement Learning from Human Feedback)
언어 모델이 엉뚱한 소리를 하거나 위험한 발언을 하지 않도록 가르치려면 어떻게 해야 할까? "욕설 금지" 같은 규칙을 넣을 수도 있지만, 미묘한 뉘앙스나 창의적인 답변의 품질은 규칙으로 정할 수 없다. 오직 인간만이 "이 답변이 저것보다 낫네"라고 판단할 수 있다. RLHF는 바로 이 인간의 선호(Preference)를 강화학습의 엔진으로 사용한다.
하지만 기계는 인간의 마음을 직접 읽을 수 없다. 그래서 RLHF는 복잡한 3단계 과정을 거친다.
첫째, 지도 파인튜닝(SFT): 사람이 직접 쓴 모범 답안을 보여주며 "일단 이렇게 말해봐"라고 가르친다.
둘째, 보상 모델(Reward Model) 학습: 기계가 뱉은 여러 답변 중 사람이 더 좋아하는 것을 고르면, 기계는 "아, 사람들은 이런 걸 좋아하는구나"라며 점수를 매기는 '채점기(보상 모델)'를 스스로 만든다.
셋째, 강화학습(PPO): 이제 기계는 이 채점기가 높은 점수를 주는 답변을 하도록 훈련된다.
이때 중요한 것은 '안전장치'다. 점수만 따려고 들면 기계는 이상한 꼼수를 부리거나, 원래 배웠던 말하기 방식에서 너무 멀어져 횡설수설할 수 있다. 그래서 KL 발산(KL Divergence)이라는 제약을 두어, "원래 네가 하던 말하기 방식에서 너무 많이 벗어나지는 마"라고 붙잡아둔다. RLHF는 덕분에 인간의 의도에 맞는 답변을 내놓게 되지만, 과정이 복잡하고 계산 비용이 많이 든다는 단점이 있다.
2. 보상 모델은 거추장스럽다: DPO (Direct Preference Optimization)
"굳이 '채점기(보상 모델)'를 따로 만들어야 해? 그냥 사람이 좋아하는 거랑 싫어하는 거 보여주고 바로 배우면 안 되나?" 이런 의문에서 등장한 것이 DPO다. DPO는 복잡한 RLHF의 단계를 획기적으로 줄여버렸다. 보상 모델을 만들고 다시 강화학습을 돌리는 대신, 인간의 선호 데이터를 직접 정책 최적화 문제로 변환해 버린 것이다. 수식 하나를 살짝 비틀어(수학적으로는 보상 함수를 정책의 로그 확률 비율로 재표현하여), 기계가 "좋은 답변의 확률은 높이고, 나쁜 답변의 확률은 낮추는" 방식으로 바로 학습하게 만들었다.
DPO는 강화학습 과정(PPO) 자체를 제거했기 때문에 학습이 훨씬 빠르고 안정적이다(SFT가 완료된 모델을 기반으로 '인간의 선호 데이터(어느 것이 더 나은지)'를 직접 학습한다). 복잡한 파이프라인 없이도 인간의 선호를 훌륭하게 반영할 수 있어, 최근 언어 모델 학습의 새로운 대세로 떠오르고 있다. 하지만 DPO 역시 주어진 데이터 안에서만 배우기 때문에, 데이터에 없는 완전히 새로운 창의성을 발휘하거나 먼 미래를 내다보는 능력에는 한계가 있다.
3. 미래를 시뮬레이션하다: MCTS (Monte Carlo Tree Search)
이제 시선을 돌려보자. 바둑이나 체스처럼 수 싸움이 치열한 곳에서는 "좋은 말"을 배우는 것보다 "좋은 수"를 찾는 게 중요하다. 여기서 필요한 건 직감이 아니라 수읽기(탐색)다수 읽기(탐색)다. MCTS는 기계가 머릿속으로 수많은 가상의 대국을 두어보는 기술이다.
"내가 여기 두면 쟤는 저기 두겠지? 그럼 나는..." 이렇게 미래를 미리 가보며(시뮬레이션), 승률이 높은 길을 찾아낸다. 이때 핵심은 '균형'이다. 이미 이겨본 길을 확실하게 파고들 것인가(활용), 아니면 안 가본 길을 모험해 볼 것인가(탐험)? UCT라는 공식은 이 둘 사이의 균형을 절묘하게 잡아주어, 기계가 멍청한 수는 빨리 버리고 유망한 수에 집중하게 돕는다.
4. 스스로 성장하는 지능: AlphaZero
AlphaZero는 이 MCTS에 딥러닝(신경망)을 결합하여 괴물이 되었다. MCTS만으로는 너무 많은 경우의 수를 다 뒤져봐야 해서 느리다. AlphaZero는 신경망에게 두 가지를 묻는다. "지금 어디 두는 게 좋을까?(정책)" 그리고 "지금 내가 이길 확률이 얼마나 될까?(가치)".
AlphaZero의 학습 방식은 독특하다.
셀프 플레이(Self-Play).
스승도 없고 교과서도 없다. 오직 자기 자신과 수백만 번 대국을 둔다. 처음에는 아무렇게나 두지만, MCTS로 수 읽기를 조금 더 나은 수를 찾고, 그 경험을 바탕으로 신경망을 업데이트한다. 더 똑똑해진 신경망은 더 효율적으로 수읽기를 하고, 이는 다시 더 좋은 데이터를 만들어낸다. 이 무한한 자기 개선의 루프를 통해 AlphaZero는 인간의 지식을 뛰어넘는 신의 경지에 도달했다.
공학적 디테일: 악마는 디테일에 있다
이 멋진 기술들도 실제로 구현하려면 수많은 공학적 난관을 넘어야 한다.
- DPO의 민감함: 보상 모델이 없어 편하지만, 확률 계산이 조금만 틀려도 학습이 엉뚱한 곳으로 튄다. 데이터 정제와 배치의 구성이 승패를 가른다.
- AlphaZero의 조율: 탐색을 몇 번이나 할지, 탐험을 얼마나 장려할지(PUCT 계수) 같은 하이퍼파라미터 설정이 매우 까다롭다. 그냥 두면 알아서 배우는 마법이 아니라, 정교하게 조율해야 돌아가는 정밀 기계와 같다.
- 확장성: 모델이 커질수록 계산 비용은 기하급수적으로 늘어난다. 수천 개의 GPU를 효율적으로 굴리는 분산 처리 기술 없이는 이 알고리즘들은 그림의 떡이다.
결론: 강화학습, 게임을 넘어 현실로
우리는 이제 강화학습이 단순한 점수 따기 게임을 넘어섰음을 목격한다. RLHF와 DPO는 기계에게 '인간의 마음'을 가르치고 있고, MCTS와 AlphaZero는 기계에게 '생각하는 힘(탐색)'을 부여하고 있다.
이 기술들은 챗GPT 같은 언어 모델이 우리와 자연스럽게 대화하게 만들고, 복잡한 신약 개발이나 반도체 설계 같은 난제들을 해결하는 도구가 되고 있다. 물론 여전히 갈 길은 멀다. 인간의 복잡한 선호를 완벽하게 수치화하는 것은 어렵고, 엄청난 계산 비용을 줄이는 것도 숙제다. 하지만 분명한 것은, 강화학습이 이제 '학습(Learning)'과 '계획(Planning)', 그리고 '인간(Human)'을 하나로 묶는 거대한 지능의 프레임워크로 진화하고 있다는 사실이다.
'Reinforcement learning' 카테고리의 다른 글
| [강화학습 정복하기] 10강: PPO 완벽 해부: 가장 강력하고 안정적인 표준 알고리즘 (2) | 2025.12.22 |
|---|---|
| [강화학습 정복하기] 9강: 배우와 평론가의 만남: Actor-Critic (A2C)과 GAE (0) | 2025.12.22 |
| [강화학습 정복하기] 8강: 가치에서 정책으로-REINFORCE 알고리즘과 정책 그래디언트 (0) | 2025.12.22 |
| [강화학습 정복하기] 7강: DQN 성능 높이기-Dueling DQN 구조와 학습 안정화 팁 (0) | 2025.12.22 |
| [강화학습 정복하기] 6강: DQN의 탄생-딥러닝이 강화학습을 만났을 때 (Replay Buffer & Target Network) (0) | 2025.12.22 |