'분류 전체보기' 카테고리의 글 목록 (2 Page)

[강화학습 정복하기] 6강: DQN의 탄생-딥러닝이 강화학습을 만났을 때 (Replay Buffer & Target Network)

2025.12.22·

Reinforcement learning

이 글은 서강대 가상융합 전문대학원(구 메타버스 전문대학원) 강화학습 자료를 기반으로 작성되었습니다. DQN의 탄생: 딥러닝이 강화학습을 만났을 때 (Replay Buffer & Target Network)인간은 복잡한 세상 속에서 무수한 선택을 하고 그 결과를 기억하며 다음 결정을 내리는 존재이다. 이와 같은 방식으로 기계에게 스스로 판단하는 능력을 부여하고자 하는 시도에서 강화학습은 출발한다. 그러나 초창기 강화학습 알고리즘들은 현실 세계의 복잡성 앞에서 취약점을 드러냈다. 가능한 상태를 표로 저장하고 최적의 행동을 선택하는 방식, 즉 Tabular Q-learning이 대표적이었다. 이 방식은 단순하고 직관적이지만, 현실 세계에서는 거의 사용할 수 없을 만큼 취약하다. 세상은 우리가 상상하는 것보다..

[강화학습 정복하기] 5강: Q-learning vs SARSA: 지도 없이 길을 찾는 방법

2025.12.22·

Reinforcement learning

이 글은 서강대 가상융합 전문대학원(구 메타버스 전문대학원) 강화학습 자료를 기반으로 작성되었습니다. Q-learning vs SARSA: 지도 없이 길을 찾는 방법세상은 우리가 미리 계산할 수 없는 일들로 가득 차 있다. 도로 위 자율주행차는 예기치 않은 상황을 맞닥뜨리고, 로봇은 사람의 행동을 예측해야 한다. 이처럼 완벽한 모델링이 불가능한 환경에서 인공지능이 스스로 학습하려면 어떻게 해야 할까? 그 해답 중 하나가 Q-learning이다. Q-learning은 ‘모델이 없어도 학습할 수 있는 인공지능’을 가능하게 한 획기적인 방법이다. 기존의 모델 기반 강화학습은 환경의 전이확률과 보상 함수를 알아야 했다. 하지만 현실 세계에서는 이러한 정보를 얻는 것이 불가능에 가깝다. Q-learning은 이를..

[강화학습 정복하기] 4강: MDP와 벨만 방정식: 강화학습을 지탱하는 수학적 뼈대

2025.12.22·

Reinforcement learning

이 글은 서강대 가상융합 전문대학원(구 메타버스 전문대학원) 강화학습 자료를 기반으로 작성되었습니다. MDP와 벨만 방정식: 강화학습을 지탱하는 수학적 뼈대강화학습(Reinforcement Learning)의 이론적 근간은 마르코프 의사결정 과정(Markov Decision Process, MDP)이다. MDP는 “에이전트가 환경과 상호작용하며 시간에 따라 최적의 의사결정을 학습하는 과정”을 확률적 수식으로 모델링한 체계다. 이때 에이전트는 현재의 상태(State)를 관찰하고, 가능한 행동(Action) 중 하나를 선택하여 수행한다. 그 결과로 환경은 새로운 상태와 보상(Reward)을 반환하며, 이 상호작용이 시간의 흐름에 따라 연속적으로 반복된다. MDP는 다섯 가지 요소로 정의된다: 상태공간(S)..

[강화학습 정복하기] 3강: 첫 번째 실습 CartPole: 엡실론-그리디(ε-greedy)로 균형 잡기

2025.12.22·

Reinforcement learning

이 글은 서강대 가상융합 전문대학원(구 메타버스 전문대학원) 강화학습 자료를 기반으로 작성되었습니다. 3강: 첫 번째 실습 CartPole: 엡실론-그리디(ε-greedy)로 균형 잡기강화학습은 목표 지향적 학습과 의사결정을 자동화하는 계산적 접근으로, 에이전트가 환경과 상호작용하며 보상 신호를 통해 누적 보상을 극대화하도록 학습한다.에이전트는 각 시점 t에서 관찰 $o_t$를 받아 정책 $π(a|o)$에 따라 행동$a_t$를 선택하고, 환경은 다음 상태로 전이하며 보상 $r_{t+1}$을 제공한다. 상태 $S_t$는 완전한 환경 정보를 포함하지만 관찰 $o_t$는 불완전할 수 있다. Action space는 이산형과 연속형으로 구분된다. 이산형은 왼쪽·오른쪽 등 유한 선택지이고, 연속형은 실수 벡터로 ..

[강화학습 정복하기] 2강: 강화학습을 위한 PyTorch 기초: 텐서부터 오토그라드까지

2025.12.22·

Reinforcement learning

이 글은 서강대 가상융합 전문대학원(구 메타버스 전문대학원) 강화학습 자료를 기반으로 작성되었습니다. 2강: 강화학습을 위한 PyTorch 기초: 텐서부터 오토그라드까지강화학습은 환경 속에서 에이전트가 보상을 극대화하도록 학습하는 과정이다. 이 학습이 가능하려면, 에이전트가 세상을 수치적으로 이해하고 경험을 데이터로 처리할 수 있는 기반이 필요하다. 그 중심에 있는 기술이 바로 PyTorch이다. PyTorch는 딥러닝을 구현하기 위한 핵심 도구로, 데이터를 표현하는 Tensor, 기울기를 자동으로 계산하는 Autograd, 신경망 구조를 설계하는 nn.Module, 그리고 학습 과정을 체계적으로 관리하는 Training Pipeline을 제공한다. 이 네 가지 구성 요소는 딥러닝 모델의 동작을 가능하게..

[강화학습 정복하기] 1강: 인공지능은 어떻게 걷는 법을 배우나?

2025.12.22·

Reinforcement learning

이 글은 서강대 가상융합 전문대학원(구 메타버스 전문대학원) 강화학습 자료를 기반으로 작성되었습니다. 1강: 인공지능은 어떻게 걷는 법을 배우나?우리가 인공지능(AI)이라 부르는 개념의 중심에는 ‘학습’이 있다. 그러나 학습에도 여러 형태가 있다. 데이터를 주어 정답을 알려주는 지도학습(supervised learning), 정답 없이 패턴을 스스로 찾아내는 비지도학습(unsupervised learning), 그리고 주요 언급 내용인 ‘강화학습(reinforcement learning)’은 그 중에서도 가장 인간과 닮은 학습 방식이다. 강화학습은 지도학습처럼 누군가 정답을 알려주지 않는다. 대신, 세상과 부딪히며 시행착오를 반복한다. 잘한 행동에는 보상을 받고, 잘못된 행동에는 벌을 받는다. 이 단순한..

티스토리툴바