[강화학습 정복하기] 4강: MDP와 벨만 방정식: 강화학습을 지탱하는 수학적 뼈대
·
Reinforcement learning
이 글은 서강대 가상융합 전문대학원(구 메타버스 전문대학원) 강화학습 자료를 기반으로 작성되었습니다. MDP와 벨만 방정식: 강화학습을 지탱하는 수학적 뼈대강화학습(Reinforcement Learning)의 이론적 근간은 마르코프 의사결정 과정(Markov Decision Process, MDP)이다. MDP는 “에이전트가 환경과 상호작용하며 시간에 따라 최적의 의사결정을 학습하는 과정”을 확률적 수식으로 모델링한 체계다. 이때 에이전트는 현재의 상태(State)를 관찰하고, 가능한 행동(Action) 중 하나를 선택하여 수행한다. 그 결과로 환경은 새로운 상태와 보상(Reward)을 반환하며, 이 상호작용이 시간의 흐름에 따라 연속적으로 반복된다. MDP는 다섯 가지 요소로 정의된다: 상태공간(S)..