[강화학습 정복하기] 10강: PPO 완벽 해부: 가장 강력하고 안정적인 표준 알고리즘
·
Reinforcement learning
이 글은 서강대 가상융합 전문대학원(구 메타버스 전문대학원) 강화학습 자료를 기반으로 작성되었습니다. PPO 완벽 해부: 가장 강력하고 안정적인 표준 알고리즘 앞선 논의를 통해 우리는 정책과 가치를 결합하는 Actor-Critic 구조가 정책 그래디언트의 불안정성을 상당 부분 해결했음을 확인하였다. A2C와 A3C는 평론가(Critic)의 평가 신호를 안정화하여 배우(Actor)가 올바른 방향으로 나아가도록 도왔다. 그러나 여전히 정책 학습에는 해결되지 않은 근본적인 문제가 남아 있었다. 바로 정책 자체가 한 번의 업데이트로 너무 멀리 이동해 버리면 학습 전체가 다시 무너질 수 있다는 점이다. 학습률(Learning Rate)을 작게 잡으면 안정적이지만 속도가 느리고, 크게 잡으면 속도는 빠르지만 정책이..
VirtualJin
'KL 다이버전스 (KL divergence)' 태그의 글 목록