Lecture 4: Model-Free Prediction
·
Reinforcement learning
보호되어 있는 글입니다.
Lecture3: Planning by Dynamic Programming
·
Reinforcement learning
보호되어 있는 글입니다.
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning - DeepSeek-AI 외 [2025]
·
LLM
본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 해당 논문에서 발췌한 것입니다. 이 자료들은 논문의 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원 논문을 참고하여 확인하시기 바랍니다 AbstractDeepSeek 연구진은 대형 모델에서 학습된 추론 능력을 소형 모델에 전달(distillation)하는 방식이, 소형 모델에서 직접 강화학습(RL)로 추론 능력을 개발하는 방식보다 더 우수한 성능을 보인다는 것을 입증했습니다. 연구진은 DeepSeek-R1 모델이 생성한 추론 데이터를 기반으로 Qwen 및 Llama 계열의 다양한 소형 모델을 감독학습(SFT)만으로 fine-tuning하였고, 이 소형 모델들은 기존의 오픈소스 모델..
Lecture 2: Markov Decision Processes
·
Reinforcement learning
보호되어 있는 글입니다.
Lecture 1: Introduction to Reinforcement Learning
·
Reinforcement learning
보호되어 있는 글입니다.
CHAPTER 3: 비지도 학습(Unsupervised Learning)과 전처리(Preprocessing)
·
데이터분석
참고 문헌: 1. 서강대 AI MBA 데이터마이닝 강의교재 (2023) 2. Müller, A. C., & Guido, S. (2016). *Introduction to Machine Learning with Python*. 1st Edition. O’Reilly Media, Inc., Sebastopol, CA. ISBN: 978-1449369415.# Python 3.12.9 와 3.13.2 기준으로 작성되었습니다. 1. 비지도 학습의 개요 및 유형 1) 비지도 학습(Unsupervised Learning)의 개념 - 비지도 학습은 레이블이 없는 데이터를 활용하여 구조적 패턴을 발견하는 학습 방식이다. - 대표적인 유형은 변환(transformation) 과 클러스터링(cluster..
VirtualJin
'분류 전체보기' 카테고리의 글 목록 (7 Page)