DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning - DeepSeek-AI 외 [2025]
·
LLM
본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 해당 논문에서 발췌한 것입니다. 이 자료들은 논문의 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원 논문을 참고하여 확인하시기 바랍니다 AbstractDeepSeek 연구진은 대형 모델에서 학습된 추론 능력을 소형 모델에 전달(distillation)하는 방식이, 소형 모델에서 직접 강화학습(RL)로 추론 능력을 개발하는 방식보다 더 우수한 성능을 보인다는 것을 입증했습니다. 연구진은 DeepSeek-R1 모델이 생성한 추론 데이터를 기반으로 Qwen 및 Llama 계열의 다양한 소형 모델을 감독학습(SFT)만으로 fine-tuning하였고, 이 소형 모델들은 기존의 오픈소스 모델..
VirtualJin
'deepseek-r1-zero' 태그의 글 목록