DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning - DeepSeek-AI 외 [2025]

[논문요약] Attention Is All You Need - Ashish Vaswani et al.(2023) (1)	2025.06.02
[논문요약] A Comparison of DeepSeek and Other LLMs – Gao et al. (2025) (0)	2025.05.02
[논문 요약] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks - Patrick Lewis 외 [2020] (0)	2025.02.25

분야	벤치마크	DeepSeek-R1 성능 비교	모델과의 성능 비교
Reasoning	AIME 2024	79.8% Pass@1	OpenAI-o1-1217보다 약간 우수
Reasoning	MATH-500	97.3%	OpenAI-o1-1217과 비슷, 타 모델 대비 매우 우수
Coding	Codeforces	Elo rating 2029 (상위 96.3%)	인간 참가자 대비 매우 우수
Coding	Engineering tasks	DeepSeek-V3보다 소폭 우수	DeepSeek-V3 대비 약간 우수
Knowledge	MMLU	90.8%	DeepSeek-V3보다 우수, OpenAI-o1-1217보다 약간 낮음
	MMLU-Pro	84.0%	DeepSeek-V3보다 우수, OpenAI-o1-1217보다 약간 낮음
	GPQA Diamond	71.5%	DeepSeek-V3보다 우수, OpenAI-o1-1217보다 약간 낮음
	SimpleQA	DeepSeek-V3보다 우수	DeepSeek-V3 대비 우수
Others	AlpacaEval 2.0	87.6% (길이 제어 win-rate)	창의적 글쓰기, 일반 질문답변 등 다양한 작업에서 우수
	ArenaHard	92.3% (win-rate)	시험 외 일반적인 질문들(non-exam-oriented)에서 높은 성능
	Long-context tasks	DeepSeek-V3보다 크게 우수	긴 문맥 이해 작업에서 DeepSeek-V3 대비 매우 우수

티스토리툴바