[강화학습 정복하기] 3강: 첫 번째 실습 CartPole: 엡실론-그리디(ε-greedy)로 균형 잡기
·
Reinforcement learning
이 글은 서강대 가상융합 전문대학원(구 메타버스 전문대학원) 강화학습 자료를 기반으로 작성되었습니다. 3강: 첫 번째 실습 CartPole: 엡실론-그리디(ε-greedy)로 균형 잡기강화학습은 목표 지향적 학습과 의사결정을 자동화하는 계산적 접근으로, 에이전트가 환경과 상호작용하며 보상 신호를 통해 누적 보상을 극대화하도록 학습한다.에이전트는 각 시점 t에서 관찰 $o_t$를 받아 정책 $π(a|o)$에 따라 행동$a_t$를 선택하고, 환경은 다음 상태로 전이하며 보상 $r_{t+1}$을 제공한다. 상태 $S_t$는 완전한 환경 정보를 포함하지만 관찰 $o_t$는 불완전할 수 있다. Action space는 이산형과 연속형으로 구분된다. 이산형은 왼쪽·오른쪽 등 유한 선택지이고, 연속형은 실수 벡터로 ..