본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 해당 논문에서 발췌한 것입니다. 이 자료들은 논문의 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원 논문을 참고하여 확인하시기 바랍니다
Abstract
DeepSeek 연구진은 대형 모델에서 학습된 추론 능력을 소형 모델에 전달(distillation)하는 방식이, 소형 모델에서 직접 강화학습(RL)로 추론 능력을 개발하는 방식보다 더 우수한 성능을 보인다는 것을 입증했습니다. 연구진은 DeepSeek-R1 모델이 생성한 추론 데이터를 기반으로 Qwen 및 Llama 계열의 다양한 소형 모델을 감독학습(SFT)만으로 fine-tuning하였고, 이 소형 모델들은 기존의 오픈소스 모델보다 뛰어난 성능을 기록했습니다. 특히 DeepSeek-R1-Distill-Qwen-7B 모델은 AIME 2024에서 55.5%로 QwQ-32B-Preview를 능가했고, DeepSeek-R1-Distill-Qwen-32B 모델은 AIME 2024에서 72.6%, MATH-500에서 94.3%, LiveCodeBench에서 57.2%를 기록하며 오픈소스 모델 중 최고 수준의 성능을 달성했습니다. 연구진은 이 모델들을 오픈소스로 공개하여 커뮤니티가 활용할 수 있도록 지원하였습니다.
1. Introduction
최근 대형 언어모델(Large Language Models, LLMs)은 빠르게 발전하며 인공지능 일반화(Artificial General Intelligence, AGI)에 점점 가까워지고 있다. 본 논문은 감독학습(Supervised Fine-Tuning, SFT) 없이 순수한 강화학습(Reinforcement Learning, RL)만으로 LLM의 추론 능력을 개발할 수 있는지 실험적으로 탐구한 최초의 연구이다. 연구진은 특히 DeepSeek-R1-Zero라는 모델을 개발하여 순수한 RL만으로 뛰어난 추론 능력을 얻을 수 있음을 증명하고, 이를 개선하여 실용성을 높인 DeepSeek-R1 모델을 제안하였다.
1.1 Contributions
기여점은 다음과 같다.
- Post-Training (대규모 강화학습으로 기본모델 훈련):
- DeepSeek 연구진은 감독학습(SFT)을 사전 단계로 활용하지 않고, 기본 모델(base model)에 곧바로 대규모 강화학습(RL)을 적용했다.
- 이러한 접근방식은 모델이 복잡한 문제를 해결하기 위한 Chain-of-Thought(CoT)를 스스로 탐색할 수 있도록 유도하며, 이를 통해 DeepSeek-R1-Zero라는 모델이 개발되었다.
- DeepSeek-R1-Zero는 자기 검증(self-verification), 반성(reflection), 긴 CoT 생성과 같은 추론능력을 자발적으로 나타냈으며, 이는 LLM의 추론능력을 감독학습 없이 오로지 RL만으로 개발할 수 있음을 최초로 공개적으로 입증한 사례다.
- 연구진은 DeepSeek-R1 개발을 위한 다단계 파이프라인을 제안했다. 이 파이프라인은 강화학습을 두 단계로 나누어, 첫 번째는 향상된 추론 패턴을 발견하고, 두 번째는 인간의 선호와 일치하도록 정렬(aligning)한다. 또한 두 단계의 감독학습을 추가로 수행하여, 모델의 추론 및 비추론(non-reasoning) 능력을 초기화(seed)하는 역할을 한다.
- Distillation (소형 모델에서도 뛰어난 성능 확보 가능):
- 연구진은 대형 모델에서 발견한 추론 패턴을 소형 모델로 전달(distillation)하는 방법이, 소형 모델에서 직접 RL로 발견한 추론 패턴보다 우수한 성능을 보인다는 것을 입증했습니다.
- DeepSeek-R1 모델이 생성한 추론 데이터를 활용하여 Qwen 및 Llama 시리즈의 여러 소형 모델을 fine-tuning했습니다.
- 평가 결과, DeepSeek-R1-Distill-Qwen-7B는 AIME 2024 벤치마크에서 55.5%의 성능을 기록하여 기존 오픈소스 모델인 QwQ-32B-Preview를 능가했습니다.
- 또한 DeepSeek-R1-Distill-Qwen-32B 모델은 AIME 2024에서 72.6%, MATH-500에서 94.3%, LiveCodeBench에서 57.2%의 성능을 기록하며, 기존 오픈소스 모델들을 상당히 앞서고 있으며, OpenAI의 o1-mini 모델과 비슷한 성능을 나타냈습니다.
- 연구진은 향후 연구 및 커뮤니티 지원을 위해 1.5B, 7B, 8B, 14B, 32B, 70B 크기의 distilled 모델들을 오픈소스로 공개했습니다.
| 분야 | 벤치마크 | DeepSeek-R1 성능 비교 | 모델과의 성능 비교 |
| Reasoning | AIME 2024 | 79.8% Pass@1 | OpenAI-o1-1217보다 약간 우수 |
| MATH-500 | 97.3% | OpenAI-o1-1217과 비슷, 타 모델 대비 매우 우수 | |
| Coding | Codeforces | Elo rating 2029 (상위 96.3%) | 인간 참가자 대비 매우 우수 |
| Engineering tasks | DeepSeek-V3보다 소폭 우수 | DeepSeek-V3 대비 약간 우수 | |
| Knowledge | MMLU | 90.8% | DeepSeek-V3보다 우수, OpenAI-o1-1217보다 약간 낮음 |
| MMLU-Pro | 84.0% | DeepSeek-V3보다 우수, OpenAI-o1-1217보다 약간 낮음 | |
| GPQA Diamond | 71.5% | DeepSeek-V3보다 우수, OpenAI-o1-1217보다 약간 낮음 | |
| SimpleQA | DeepSeek-V3보다 우수 | DeepSeek-V3 대비 우수 | |
| Others | AlpacaEval 2.0 | 87.6% (길이 제어 win-rate) | 창의적 글쓰기, 일반 질문답변 등 다양한 작업에서 우수 |
| ArenaHard | 92.3% (win-rate) | 시험 외 일반적인 질문들(non-exam-oriented)에서 높은 성능 | |
| Long-context tasks | DeepSeek-V3보다 크게 우수 | 긴 문맥 이해 작업에서 DeepSeek-V3 대비 매우 우수 |
2. Approach
2.1 Overview
본 연구는 감독학습 없이 순수 RL로 추론 능력을 개발하는 접근법을 제안한다. 초기에는 기본 모델의 순수 RL 학습 가능성을 평가하는 DeepSeek-R1-Zero를 개발했고, 이를 발전시켜 cold-start 데이터와 다단계 RL 및 SFT를 결합한 DeepSeek-R1을 제안하였다. 또한, 더 작은 모델에서도 고성능을 얻기 위해 큰 모델의 능력을 전달하는 distillation 방법도 고안하였다.
2.2 DeepSeek-R1-Zero: Reinforcement Learning on the Base Model
이전 연구들(Shao et al., 2024; Wang et al., 2023)은 추론(reasoning) 작업에서 강화학습(RL)의 효과를 입증했으나, 이 연구들은 감독학습(supervised data)에 크게 의존하여 데이터 수집에 많은 시간이 소요되는 단점이 있었다. 본 연구에서는 감독학습 데이터 없이 순수 강화학습만으로 대형 언어모델(LLMs)이 추론능력을 자발적으로 발전시킬 수 있는지를 탐구한다. 이를 위해 연구진은 자신들이 사용한 RL 알고리즘을 간단히 소개하고, 그 성과를 통해 커뮤니티에 의미 있는 통찰(insights)을 제공하고자 한다.
2.2.1 Reinforcement Learning Algorithm
Group Relative Policy Optimization : 사용된 GRPO(Group Relative Policy Optimization) 알고리즘은 그룹 내 상대적 보상을 기반으로 정책을 업데이트하며, 다음과 같은 수식으로 표현된다:
\[ J_{GRPO}(θ) = \mathbb{E}_{q \sim P(Q), o_i \sim π_{old}} \left[ \frac{1}{G} \sum_{i=1}^G \min \left( \frac{π_θ(o_i|q)}{π_{old}(o_i|q)} A_i, \text{clip}(\cdot) A_i \right) - βD_{KL}(π_θ||π_{ref}) \right] \]
여기서, \(A_i\)는 그룹 내 보상의 표준화된 advantage이며, KL divergence는 정책의 안정성을 유지하기 위한 정규화 항이다.
2.2.2 Reward Modeling
DeepSeek-R1-Zero 훈련을 위한 강화학습(RL)의 보상 시스템은 두 가지 규칙 기반 보상으로 구성된다.
- 정확도 보상(Accuracy rewards): 응답이 정확한지 평가하는 보상. 수학 문제는 지정된 형식(예: 박스 안의 답)을 통해 정확성을 확인하고, 코딩 문제(LeetCode)는 사전 정의된 테스트 케이스를 사용하여 컴파일러로 평가한다.
- 형식 보상(Format rewards): 추론 과정을 명확하게 ‘ <think>’ 와 ‘<think>’ 태그 사이에 표현하도록 강제하는 보상.
연구진은 신경망 보상 모델(neural reward model)은 보상 해킹 문제와 추가 자원 소요 및 훈련 과정 복잡성으로 인해 사용하지 않았다.
2.2.3 Training Template
DeepSeek-R1-Zero의 훈련을 위해 연구진은 기본 모델이 명시된 지침을 따르도록 하는 간단한 템플릿을 설계하였다. 이 템플릿은 모델이 우선 추론 과정을 생성하고, 이후 최종 답을 제시하도록 한다. 또한 연구진은 템플릿의 구조적 형식에만 제한을 두고, 특정 유형의 추론을 강요하거나 문제 해결 방식을 유도하는 등의 내용적 편향을 의도적으로 배제하였다. 이는 강화학습(RL) 과정 중 모델이 자연스럽게 발전하는 모습을 정확하게 관찰하기 위함이다.

2.2.4 Performance, Self-evolution Process, and Aha Moment
DeepSeek-R1-Zero의 성능 (Performance of DeepSeek-R1-Zero)
연구진은 DeepSeek-R1-Zero 모델의 성능을 AIME 2024 벤치마크를 통해 평가했다. Figure 2에 따르면, 강화학습(RL) 과정이 진행될수록 DeepSeek-R1-Zero의 성능이 지속적으로 꾸준히 향상되었다. 초기에는 AIME 2024에서 평균 Pass@1 점수가 15.6%였으나, 학습 후 71.0%로 현저히 향상되어 OpenAI의 o1-0912 모델과 비슷한 수준을 달성했다. 이는 RL 알고리즘이 모델 성능을 지속적으로 최적화하는 데 효과적임을 잘 보여준다.
Table 2는 DeepSeek-R1-Zero와 OpenAI의 o1-0912 모델 간의 다양한 추론(Reasoning) 벤치마크에서의 성능을 비교한 결과이다. 이 결과에 따르면, DeepSeek-R1-Zero는 감독학습 데이터 없이 순수 RL만으로도 높은 수준의 추론 능력을 확보할 수 있음을 입증했다. 특히 Majority Voting 기법을 적용하면 AIME 점수가 71.0%에서 86.7%로 더욱 향상되어 OpenAI-o1-0912 모델을 뛰어넘는 성능을 나타냈다. 이는 DeepSeek-R1-Zero의 추론 능력이 매우 견고하며, 앞으로 더욱 향상될 가능성이 있음을 보여준다.

# Majority Voting 더보기("더보기" 버튼 클릭)
Majority Voting 기법(다수결 투표 방식)은 앙상블(ensemble) 모델에서 널리 사용되는 방식으로,
하나의 문제에 대해 여러 개의 예측 결과를 얻은 후, 가장 많은 모델이 선택한 결과를 최종 답변으로 채택하는 방법입니다.
예를 들어,
- 모델 A: 답변 ①
- 모델 B: 답변 ②
- 모델 C: 답변 ②
- 모델 D: 답변 ②
- 모델 E: 답변 ③
이 경우, 가장 많은 지지를 얻은 답변 ②를 최종 답으로 선택합니다.
이는 개별 모델의 불확실성이나 오류를 줄이고, 더욱 안정적이고 정확한 결과를 얻기 위한 방법으로 사용됩니다. 논문에서 언급된 DeepSeek-R1-Zero 모델의 경우, 단일 응답 성능은 71.0%였으나, Majority Voting 기법을 적용했을 때 성능이 86.7%로 크게 상승한 결과를 보였습니다.
정리하면, 논문에서 사용된 Majority Voting 기법은 일반적으로 앙상블 방법에서 쓰이는 다수결 투표 방식과 동일한 개념이며, 여러 예측을 종합하여 성능을 높이는 데 효과적입니다.
DeepSeek-R1-Zero의 자기 진화 과정 (Self-evolution Process)
DeepSeek-R1-Zero의 자기 진화 과정은 모델이 강화학습(RL)을 통해 자율적으로 추론 능력을 발전시키는 과정을 잘 보여주는 흥미로운 사례이다. 연구진은 감독학습 단계 없이 순수히 RL만으로 훈련함으로써 모델의 자연스러운 진화 과정을 명확히 관찰할 수 있었다.
Figure 3에 나타난 바와 같이, DeepSeek-R1-Zero의 '생각 시간(thinking time)'은 훈련 과정에서 지속적으로 증가했다. 이는 외부 조정에 의한 것이 아니라 모델 내부에서 자발적으로 일어난 변화이다. 구체적으로 모델은 수백 개에서 수천 개의 추론 토큰(reasoning tokens)을 생성하며, 더 복잡한 문제를 해결하기 위해 더욱 깊이 있고 상세한 사고 과정을 탐색하고 발전시키는 능력을 자율적으로 습득했다.
또한, 모델이 테스트 과정에서 계산량이 증가할수록 더 정교한 행동을 나타내는 것도 주목할 만하다. 대표적으로 모델이 자신의 이전 단계를 다시 점검하고(reflection), 문제 해결을 위해 여러 다른 접근법을 자발적으로 탐색하는 현상이 나타났다. 이는 프로그래밍된 행동이 아니라 RL 환경과의 상호작용을 통해 자발적으로 발생한 것으로, 모델의 추론 능력을 크게 높이는 데 기여했다.

DeepSeek-R1-Zero의 Aha Moment (특별한 발견의 순간)
DeepSeek-R1-Zero 훈련 과정 중 가장 흥미로운 현상 중 하나는 소위 "Aha Moment"가 발생했다는 점이다. 이 현상은 Table 3에서 예시로 보여진 중간 버전의 모델에서 나타났다. 이 순간 모델은 문제 해결의 초기 접근법을 재평가하고 다시 생각하는 데 더 많은 시간을 할애하는 방법을 스스로 습득했다. 이는 모델의 추론 능력이 성장하고 있음을 보여주는 구체적인 사례이며, 강화학습이 예상하지 못한 정교한 결과를 이끌어낼 수 있음을 잘 보여주는 예이다.
이 "Aha Moment"는 모델 자체뿐만 아니라 이 과정을 관찰하는 연구진에게도 중요한 발견이었다. 이는 강화학습의 핵심 원리를 잘 나타내는데, 연구진이 모델에게 직접적인 문제 해결 방식을 가르치지 않고도 적절한 보상을 통해 자율적으로 고급 문제 해결 전략을 개발하도록 유도할 수 있음을 시사한다. 이러한 발견은 앞으로 더욱 자율적이고 적응력이 뛰어난 인공지능 모델 개발의 가능성을 열어준다.

DeepSeek-R1-Zero의 한계 (Drawback of DeepSeek-R1-Zero)
DeepSeek-R1-Zero는 뛰어난 추론 능력과 예상치 못한 강력한 행동을 자율적으로 개발했음에도 불구하고 몇 가지 한계점이 존재한다. 특히 가독성(readability)이 떨어지고, 언어 혼합(language mixing) 문제를 보였다. 연구진은 이러한 문제점을 개선하고 추론 과정의 가독성을 높이기 위해, 인간 친화적인(human-friendly) cold-start 데이터를 활용하여 RL을 수행하는 개선된 모델인 DeepSeek-R1을 개발하고자 하였다.
2.3 DeepSeek-R1: Reinforcement Learning with Cold Start
DeepSeek-R1-Zero 모델이 보여준 뛰어난 성과를 바탕으로, 연구진은 자연스럽게 두 가지 질문을 갖게 되었다. 첫 번째는 소량의 고품질 데이터를 초기 훈련 단계(cold start)에 도입하여 추론 성능을 더욱 향상시키거나 학습의 수렴 속도를 가속화할 수 있는지에 대한 것이다. 두 번째 질문은 사용자가 이해하기 쉽고 명확한 추론 과정(Chain of Thought, CoT)을 생성하는 동시에 다양한 상황에서 뛰어난 일반화 능력을 보이는 사용자 친화적인 모델을 어떻게 학습시킬 수 있는가이다. 연구진은 이 두 질문에 답하기 위해 DeepSeek-R1을 훈련하기 위한 네 단계로 구성된 구체적인 학습 파이프라인을 설계하였다.
2.3.1 Cold Start
DeepSeek-R1-Zero 모델은 초기 강화학습(RL) 단계에서 불안정한 성능을 보이는 문제가 있었다. 이를 개선하기 위해 연구진은 DeepSeek-R1 모델에서는 초기에 소량의 고품질 Cold-start 데이터를 사용하여 사전 미세조정(fine-tuning)을 수행하고 이후 RL 학습을 시작했다.
Cold-start 데이터 수집에는 다음과 같은 방법이 활용되었다:
- 긴 CoT 예시를 활용한 Few-shot 프롬프팅
- 반성과 검증(reflection and verification)을 포함한 상세한 답변을 생성하도록 모델을 직접 프롬프팅
- DeepSeek-R1-Zero가 생성한 출력을 가독성 높은 형태로 수집
- 사람이 직접 데이터를 후처리(post-processing)하여 품질 개선
이렇게 수집된 수천 개의 Cold-start 데이터로 DeepSeek-V3-Base를 사전 학습한 후 RL을 시작하였다. 이 방식은 다음과 같은 장점을 제공한다:
- 가독성(Readability): DeepSeek-R1-Zero는 언어 혼합이나 서식 부족 등으로 인해 가독성이 떨어졌던 반면, DeepSeek-R1은 각 응답의 마지막에 요약(summary)을 추가하고 명확한 서식(|special_token|<reasoning_process>|special_token|)을 사용하여 사용자에게 보다 읽기 편한 결과를 제공하였다.
- 잠재적 성능 향상(Potential): Cold-start 데이터를 사람의 판단(human priors)을 반영하여 정교하게 설계함으로써, DeepSeek-R1-Zero 대비 더 뛰어난 성능을 달성할 수 있었다. 연구진은 이러한 반복적(iterative) 학습 방식이 추론 능력 향상에 효과적이라고 판단했다.
2.3.2 Reasoning-oriented Reinforcement Learning
DeepSeek-V3-Base를 cold-start 데이터로 미세조정한 뒤, DeepSeek-R1-Zero에서 사용한 것과 동일한 대규모 강화학습(RL) 과정을 적용했다. 이 과정은 코딩, 수학, 과학, 논리 등 명확한 해결 과정을 지닌 추론 집약적 작업에 집중한다. 학습 중 CoT가 여러 언어를 섞어 사용하는 문제(language mixing)가 자주 발생함에 따라, 연구진은 목표 언어 비율을 측정하여 보상하는 ‘언어 일관성(Language Consistency) 보상’을 도입했다. 이로 인해 약간의 성능 저하가 관찰되었으나, 가독성이 높아져 사용자 친화적 결과를 제공할 수 있었다. 최종적으로 정확도 보상과 언어 일관성 보상을 합산해 최종 보상을 구성했고, 모델이 추론 작업에서 수렴할 때까지 RL 학습을 수행했다.
2.3.3 Rejection Sampling and Supervised Fine-Tuning
Reasoning 중심 RL이 수렴한 후, 해당 체크포인트를 사용해 모델이 학습할 SFT(Supervised Fine-Tuning) 데이터를 새로 수집한다. 초기 cold-start 데이터가 주로 추론에 집중되었다면, 이번 단계에서는 작문, 롤플레이(role-playing), 일반적인 과업 등 모델의 전반적 능력을 보강하기 위해 다른 도메인의 데이터도 포함한다.
- 추론(Reasoning) 데이터
- RL 체크포인트로부터 리젝션 샘플링(rejection sampling)을 적용해 약 60만 건(600k)의 추론 관련 샘플을 새로 수집한다.
- 이전 단계에서는 규칙 기반 보상으로 평가할 수 있는 데이터만 사용했으나, 이번에는 DeepSeek-V3로 검증한 생성형(generative) 보상 모델을 활용해 더 다양한 데이터를 포함한다.
- 언어 혼합, 지나치게 긴 문단, 코드 블록 등이 포함된 답변은 가독성 문제가 있어 필터링한다.
- 비추론(Non-Reasoning) 데이터
- 쓰기, 사실성 QA, 자기인식(self-cognition), 번역 등 다양한 작업에 대한 데이터를 추가로 확보한다.
- DeepSeek-V3의 기존 SFT 데이터 일부를 재활용하고, 특정 질의(예: “hello”) 등 간단한 경우에는 별도의 CoT 없이 답을 제공하도록 한다.
- 이 과정을 통해 약 20만 건(200k)의 비추론 관련 샘플을 수집한다.
최종적으로 약 80만 건(800k)의 데이터(추론 60만 + 비추론 20만)를 활용해 DeepSeek-V3-Base를 두 에폭(epoch) 동안 미세조정(fine-tuning)한다.
2.3.4 Reinforcement Learning for All Scenarios
연구진은 모델을 인간 선호도에 더욱 부합하도록 조정하기 위해, 합리적 추론 능력을 유지하면서도 helpfulness(도움이 되는 정도)와 harmlessness(위해를 주지 않는 정도)를 높이는 두 번째 강화학습(RL) 단계를 추가로 수행했다.
- 추론 데이터: DeepSeek-R1-Zero 방식대로 수학, 코딩, 논리 추론 등에서 규칙 기반 보상을 적용한다.
- 일반 데이터: 인간 선호를 반영하기 위한 보상 모델을 사용해, 복잡하고 미묘한 시나리오에서도 적절히 대응하도록 학습한다.
도움성(helpfulness)을 평가할 때는 최종 요약을 주로 확인해 사용자에게 유용한지를 본다. 위해성(harmlessness)은 추론 과정과 최종 요약 전부를 검사해, 잠재적 위험 또는 편향, 유해한 콘텐츠가 없는지 판단한다. 이러한 다양한 보상 신호와 프롬프트 분포를 통합함으로써, 연구진은 뛰어난 추론 성능은 물론이고 사용자 친화적이면서도 안전한 모델을 훈련할 수 있었다.
2.4 Distillation: Empower Small Models with Reasoning Capability
연구진은 DeepSeek-R1에서 활용한 약 80만 개의 샘플(§2.3.3 참고)을 사용해, Qwen과 Llama 같은 오픈소스 모델(Qwen2.5-Math-1.5B, 7B, 14B, 32B, Llama-3.1-8B, Llama-3.3-70B-Instruct)에 직접 미세조정(SFT)을 진행했다. 이를 통해 작은 모델들도 뛰어난 추론 능력을 갖추도록 할 수 있음을 확인했다. 특히 이 과정에서 RL을 적용하지 않고도 소형 모델의 성능이 크게 향상됨을 보였으며, 추후 RL을 병행하는 연구는 커뮤니티의 후속 과제로 남겼다.
3. Experiment
벤치마크(Benchmarks)
- 연구진은 MMLU, MMLU-Redux, MMLU-Pro, C-Eval, CMMLU, IFEval, FRAMES, GPQA Diamond, SimpleQA, C-SimpleQA, SWE-Bench Verified, Aider 1, LiveCodeBench(2024-08 ~ 2025-01), Codeforces, CNMO 2024, AIME 2024 등 다양한 벤치마크를 사용해 모델 성능을 평가했다.
- AlpacaEval 2.0과 Arena-Hard처럼 LLM을 심판으로 활용하는 오픈형 생성 과제도 수행했으며, 여기서는 최종 요약만 평가해 길이 편향을 방지했다.
- Distillation된 모델에 대해서는 AIME 2024, MATH-500, GPQA Diamond, Codeforces, LiveCodeBench 결과를 대표적으로 보고했다.
평가 프롬프트(Evaluation Prompts)
- DeepSeek-V3 설정을 기준으로 MMLU, DROP, GPQA Diamond, SimpleQA는 simpleevals 프레임워크의 프롬프트를 사용했다.
- MMLU-Redux는 Zero-Eval 방식(Zero-shot), MMLU-Pro, C-Eval, CLUE-WSC 등 원래 few-shot 설정인 경우도 zero-shot으로 변형해 성능을 측정했다.
- 수학/코드 벤치마크 HumanEval-Mul은 8개 언어(Python, Java, C++, C#, JavaScript, TypeScript, PHP, and Bash)를 포괄하며, LiveCodeBench는 CoT 형식을 사용했고 Codeforces는 Div.2 문제 10개와 전문 검증 코드를 활용해 레이팅을 산출했다. SWE-Bench Verified는 agentless 프레임워크, AIDER는 diff 형식으로 측정했고,
- DeepSeek-R1의 모든 출력은 벤치마크마다 최대 32,768 토큰으로 제한했다.
비교 대상(Baselines)
- DeepSeek-V3, Claude-Sonnet-3.5-1022, GPT-4o-0513, OpenAI-o1-mini, OpenAI-o1-1217 등 강력한 모델들과 성능을 비교했다.
- OpenAI-o1-1217은 중국 본토에서 API 접근이 어려워 공개된 보고치를 사용했다.
- 소형 모델 평가는 오픈소스 QwQ-32B-Preview(Qwen, 2024a)와 비교했다.
평가 설정(Evaluation Setup)
- 최대 32,768 토큰까지 출력하도록 설정하고, 그리디(greedy) 디코딩은 장문 추론에서 반복 문제가 심해 사용하지 않았다.
- 대신 샘플링(temperature=0.6, top-p=0.95) 방식으로 여러 응답(4~64개)을 생성하고, pass@1 지표를 활용해 평균 정확도를 계산했다.

- AIME 2024에서는 64개의 응답에 대해 다수결(Consensus, Majority Vote)을 적용한 결과(cons@64)도 추가로 보고했다.
3.1 DeepSeek-R1 Evaluation
DeepSeek-R1은 MMLU, MMLU-Pro, GPQA Diamond 같은 교육용 지식 벤치마크에서 DeepSeek-V3 대비 우수한 성능을 보였으며, 특히 STEM 영역에서 대규모 강화학습을 통해 정확도를 크게 높였다. FRAMES처럼 긴 맥락이 필요한 QA 작업에서도 문서 분석 능력을 입증했고, SimpleQA 벤치마크에서는 사실 기반 쿼리에 대한 처리 능력으로 DeepSeek-V3보다 높은 점수를 획득했다. 단, 중국어 SimpleQA에서는 안전성 강화를 위한 RL 때문인지 일부 질의를 거부해 성능이 낮아졌으나, 안전 장치를 제거하면 70% 이상의 정확도를 달성할 수 있다.
IF-Eval에서는 형식 준수 능력에서 좋은 결과를 보였으며, AlpacaEval2.0과 ArenaHard에서는 글쓰기와 오픈 도메인 QA 분야에서 DeepSeek-V3를 상회하는 성능을 나타냈다. 수학 분야에서는 OpenAI-o1-1217과 비슷한 성능으로 타 모델들을 크게 앞섰고, 코딩 알고리즘 관련 LiveCodeBench와 Codeforces에서도 뛰어난 성과를 거두었다. 반면, 엔지니어링 지향 코딩 과제인 Aider에서는 o1-1217이 더 우수했지만 SWE Verified에서는 비슷한 결과를 보였으며, 현재 엔지니어링 분야 관련 RL 데이터가 제한적이므로 향후 버전에서 DeepSeek-R1의 추가 개선이 예상된다.

3.2 Distilled Model Evaluation
Distillation만으로도 DeepSeek-R1의 출력을 소형 모델에 전달하면, GPT-4o-0513 등 기존 모델을 능가하는 성능을 얻을 수 있음을 확인했다. 예를 들어, DeepSeek-R1-Distill-Qwen-7B는 GPT-4o-0513보다 전 범위에서 우수했고, DeepSeek-R1-Distill-Qwen-14B는 QwQ-32B-Preview보다 높은 점수를 보였다. DeepSeek-R1-Distill-Qwen-32B와 70B는 대부분의 벤치마크에서 o1-mini를 크게 넘어서는 결과를 보였으며, 이는 distillation의 가능성을 시사한다. 추가로, 이 소형 모델들에 RL을 적용하면 성능이 더욱 향상되는 것으로 관찰되어, 이후 연구 방향으로 제시되었다.

4. Discussion
4.1 Distillation vs Reinforcement Learning
연구진은 “Qwen-32B-Base” 모델에 대해 대규모 RL(10K 스텝 이상)을 적용해 DeepSeek-R1-Zero-Qwen-32B를 개발했으나, 이는 기존 QwQ-32B-Preview 수준에 머무렀다. 반면 DeepSeek-R1로부터 증류(distillation)된 DeepSeek-R1-Distill-Qwen-32B는 훨씬 더 높은 성능을 보여, 강력한 대형 모델의 추론 능력을 소형 모델로 옮기는 것이 더 효과적이라는 결론이 도출되었다. 또한, 지능의 한계를 더욱 확장하기 위해서는 여전히 규모가 큰 모델과 대규모 강화학습이 필요할 가능성이 크다고 본다.

4.2 Unsuccessful Attempts
DeepSeek-R1 개발 초기에는 여러 시도가 이루어졌으나, 여기서 언급된 PRM(Process Reward Model)과 MCTS(Monte Carlo Tree Search)는 실제 확장 단계에서 어려움을 겪었다.
Process Reward Model (PRM)
- 추론 과정을 세분화해 모델을 더 나은 접근으로 유도하는 방법이지만, 세 가지 문제가 확인되었다.
- 일반화된 추론에서 세밀한 단계를 명시하기가 어렵다.
- 중간 단계의 정·오 판별이 어려워, 자동 혹은 수작업 주석에도 한계가 있다.
- 모델 기반 보상은 ‘보상 해킹’을 유발하고, 보상 모델을 재학습해야 해 대규모 RL 시 복잡도를 크게 높인다.
- 결론적으로, PRM은 Top-N 응답 재랭킹이나 제한된 가이드 검색에는 유용하지만, 대규모 RL에서는 추가 계산 부담에 비해 이점이 적었다.
Monte Carlo Tree Search (MCTS)
- AlphaGo/AlphaZero 접근을 모방해, 답변을 여러 부분으로 쪼개 트리 탐색을 시도했으나 다음과 같은 문제가 있었다.
- 체스와 달리 토큰 생성은 탐색 공간이 기하급수적으로 커서, 노드 확장 한계를 두면 국지적 최적해(local optima)에 빠질 수 있다.
- 가치(value) 모델이 모든 탐색 단계에 영향을 주는데, 세밀하게 가치 모델을 학습시키기가 매우 어렵다.
- AlphaGo와 달리 토큰 생성 복잡성 때문에, 자기 검색(self-search)으로 모델을 반복 개선하기가 쉽지 않았다.
- 결론적으로, 사전에 학습된 가치 모델과 함께 사용하면 추론 시 성능을 높일 수 있지만, 모델을 점진적으로 향상시키는 메커니즘으로는 한계가 크다.
5. Conclusion, Limitations, and Future Work
- DeepSeek-R1-Zero: 감독학습 없이 순수 RL만으로 학습해 다양한 작업에서 높은 성능을 달성.
- DeepSeek-R1: cold-start 데이터를 포함해 반복적 RL을 수행해 더 강력해졌으며, 여러 과제에서 OpenAI-o1-1217에 필적하는 결과 확보.
- Distillation: DeepSeek-R1에서 생성한 약 80만 개의 데이터를 활용해 소형 모델들을 미세조정한 결과, 수학 벤치마크(AIME 28.9%, MATH 83.9%)에서 GPT-4o, Claude-3.5-Sonnet보다 뛰어난 성능을 보였다. 다른 소형 모델들도 동일 계열 모델 대비 우수한 결과를 기록.
- 향후 과제
- General Capability: 함수 호출, 다턴 대화, JSON 출력 등 DeepSeek-V3에 비해 부족한 기능 향상.
- Language Mixing: 중국어·영어 외 언어에서 혼합 사용 문제 해결.
- Prompting Engineering: Few-shot이 성능에 부정적 영향을 주어, 제로샷 설정을 권장.
- Software Engineering Tasks: 장시간 평가 문제로 소프트웨어 엔지니어링 분야의 대규모 RL 적용이 미흡해, 향후 효율적 방법(거절 샘플링, 비동기 평가 등)으로 개선 예정.