LLM

[논문요약] A Comparison of DeepSeek and Other LLMs – Gao et al. (2025)

VirtualJin 2025. 5. 2. 15:06

본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 해당 논문에서 발췌한 것입니다. 이 자료들은 논문의 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원 논문을 참고하여 확인하시기 바랍니다.

 

Abstract

최근 공개된 DeepSeek-R1 모델은 일부 벤치마크에서 GPT-4o·Claude에 필적하는 성능을 훈련 비용의 일부만으로 달성해 주목받았다. 본 논문은 “짧은 텍스트로부터의 결과 예측”이라는 공통 프레임을 설정하고, 두 분류 과제 ① 저자 판별(Authorship Classification, AC) ② 인용 유형 분류(Citation Classification, CC)에서 DeepSeek-R1을 Claude-3.5-Sonnet, Gemini-1.5-Flash, GPT-4o-mini, Llama-3.1-8B와 동일 조건으로 비교한다.

  • 정확도 : DeepSeek-R1은 대부분 Gemini·GPT·Llama보다 낮은 오류율을 기록하지만 Claude보다 높다.
  • 속도·비용 : DeepSeek-R1이 가장 느리지만 비용이 최저이며, Claude는 최고 정확도·최고 비용을 보인다.
  • 데이터 자산 : 저자들은 MadStatAI(저자 판별용)와 CitaStat(인용 분류용) 두 공개 데이터셋을 구축하여 후속 연구의 벤치마크로 제시한다.

1. Introduction

1) 연구 배경
    (1) DeepSeek-R1은 2025-01-20 공개 직후 “GPT-급 정확도·저비용”이라는 평판을 얻었으나
            체계적 비교 연구가 부족하였다 .
    (2) LLM은 별도 학습 없이 프롬프트만으로 분류를 수행할 수 있으므로, 짧은 텍스트 분류가 
            합리적 비교 척도다 .

2) 연구 목표
    (1) DeepSeek-R1과 4대 LLM(Claude, Gemini, GPT, Llama)을 정확도·연산 시간·비용·예측 유사도 
            측면에서 비교.
    (2) 비교 과제:
     a) Authorship Classification(AC)
     b) Citation Classification(CC)

3) 연구 기여
    (1) 두 과제 제안과 통일된 실험 프로토콜.
    (2) 두 공개 데이터셋:
     a) MadStatAI – 1746건 초록 삼중 데이터(세 가지 버전[hum, AI, humAI가 한 세트인 초록 582세트)
     b) CitaStat – 2980건 완전 라벨 인용 데이터(3000건에서 확실하지 않은 20건의 라벨 제거)


1.1 Authorship Classification

1) 데이터 생성
    (1) 원천: MADStat(1975 - 2015 기간동안 36개의 저널에 출판된 통계학 논문 83,331편).
    (2) 작업 절차:
     a) 논문 ≥ 30편 저자 15명 무작위 추출 후 공저 확인 제거 → 582 편 초록 확보 .
     b) 각 초록에 대해 세 버전 제작:
      (a) hum (원문 초록)
      (b) AI – GPT-4o-mini로 제목만 주어 새 초록 생성
      (c) humAI – 원문 초록을 GPT-4o-mini로 부분 편집
     → 총 1 746 문서 → MadStatAI .

2) 실험 설계
    (1) AC1 – hum vs AI
    (2) AC2 – hum vs humAI
    (3) 각 실험 샘플 1 164 개(클래스 50 %씩), 동일 프롬프트: “human or ChatGPT” 사용 .

 

1.2 Citation Classification

1) 데이터 생성
    (1) 대상: 1996-2020 통계학 4대 저널(Annals of Statistics 외) PDF 전수 → 인용구 포함 367K 문장 추출.
    (2) 표본·라벨링: 3 000건 무작위 추출 후 4개 범주 수작업 라벨(FI·TB·BG·CP) 
            → FI (Fundamental Idea)
                : 해당 인용문은 인용된 논문이 현재 연구의 핵심 개념 또는 근본 이론을 제공하고 있음을 나타냄
             TB (Technical Basis)
                : 인용된 논문이 도구, 알고리즘, 분석 방법, 데이터 등을 제공하여 현재 연구의 기술적 기반이 되었음을 의미
             BG (Background)
                : 인용된 논문이 연구 배경이나 관련 문헌으로써 기능하며, 직접적으로 현재 연구에 영향을 주지는 않음
             CP (Comparison)
                : 인용된 논문이 현재 연구와 성능·결과·접근법 등을 비교하는 데 사용된다.

            → ‘불확실’ 20건 제외 → 2 980 건 CitaStat 완성 .
    (3) 클래스 분포: BG(57.8 %) > TB(26 %) > CP(10.6 %) > FI(5.7 %) .

2) 실험 설계
    (1) CC1 – 4-class(FI, TB, BG, CP)
    (2) CC2 – 2-class(S = FI+TB, I = BG+CP)
    (3) DeepSeek-R1은 실행 시간 문제로 5 % 표본(149건)에만 평가, 대신 DeepSeek-V3 전량 평가 

 

1.3 Results & Contributions

1) 분류 정확도 (Classification Error)

  • Claude는 4개 실험 모두에서 최저 오류율을 기록하며 일관된 최고 성능을 보였다.
  • DeepSeek-R1은 Claude보다는 다소 낮은 성능이지만, 대부분의 경우 Gemini, GPT, LLaMA보다 우수했다.
  • GPT는 AC1·AC2에서 오류율이 무작위 추측 수준이었으나, CC1·CC2에서는 더 나은 성능을 보였다.
  • LLaMA는 랜덤 수준이거나 그보다 나쁜 오류율을 기록하며 성능이 전반적으로 저조했다.

2) 추론 속도 (Computing Time)

  • Gemini와 GPT는 가장 빠른 모델이다.
  • DeepSeek-R1은 가장 느린 모델이며, 구버전인 DeepSeek-V3는 다소 빠르지만 성능은 R1보다 낮다.

3) 비용 (Cost)

  • Claude는 CC1과 CC2 기준으로 $12.30으로 가장 비쌌다.
  • LLaMA는 $1.20,
  • DeepSeek, Gemini, GPT는 모두 $0.30 이하로 상대적으로 저렴했다.

3)출력 유사도 (Output Similarity)

  • DeepSeek는 출력 패턴이 Claude 및 Gemini와 유사했다.
  • GPT와 LLaMA는 AC1·AC2에서 서로 높은 유사도를 보였으나, 전반적으로 낮은 성능을 기록했다.

 

 

 

2. Main results

이 장에서는 저자들이 수행한 네 가지 실험(AC1, AC2, CC1, CC2)에 대해 DeepSeek와 Claude, Gemini, GPT, LLaMA 등 5개 LLM을 정량적으로 비교한 결과를 제시한다

 

2.1 Authorship classification results

1) 목적

  • 인간이 작성한 초록(hum)과 AI가 생성하거나 편집한 초록(AI, humAI)을 구별하는 2-class 분류 문제
  • AC1: hum vs AI
  • AC2: hum vs humAI

2) 데이터: MadStatAI

  • 원천: MADStat 메타데이터 (1975–2015년 36개 통계학 저널, 총 83,331편 논문)
  • 저자 15명 무작위 추출(논문 수 ≥ 30), 공저 제거
  • 각 초록에 대해 세 버전 생성:
    (a) hum (원문 초록)
    (b) AI (제목만 주고 GPT-4o-mini가 작성)
    (c) humAI (원문 초록을 GPT-4o-mini가 부분 편집)
  • 최종: 582개의 삼중항(triplet) → 총 1,746개 문서

3) 실험 설계

  • AC1, AC2 각각 1,164개 샘플
  • 동일 프롬프트: "human" 또는 "ChatGPT" 중 하나만 출력
  • Zero-shot (학습 없음)

4) 실험 결과

(1) 오류율(Error Rate)

AC1 (hum vs AI):

  • Claude: 0.218 → 가장 낮은 오류율, 최고 성능
  • DeepSeek-R1: 0.286 → Claude 다음으로 우수
  • Gemini: 0.468, GPT-4o: 0.511, LLaMA: 0.511 → 0.468 이상으로 사실상 랜덤 추측 수준

AC2 (hum vs humAI):

  • DeepSeek-R1: 0.405 → 가장 낮은 오류율, Claude(0.435)보다 우수
  • Claude: 0.435
  • Gemini: 0.500, GPT-4o: 0.502, LLaMA: 0.501 → 판별 성능 낮음(사실상 무작위 선택, 즉 찍기 수준임)

(2) 추론 시간(Inference Time)

  • 가장 빠른 모델:
    • Gemini: 6분
    • GPT-4o: 7–8분
  • 가장 느린 모델:
    • DeepSeek-R1: 183–235분 (약 3–4시간 소요)
  • 중간권 모델:
    • Claude: 7분
    • LLaMA: 11–12분

(3) 비용(Cost, USD)

  • 가장 비용 효율적:
    • DeepSeek-R1: $0.04–$0.05
  • 중간권 모델:
    • Gemini: $0.09–$0.10
    • GPT-4o: $0.10–$0.12
    • LLaMA: $0.17–$0.20
  • 가장 고가:
    • Claude: $0.30–$0.50

(4) 예측 유사도

  • GPT·Gemini·LLaMA는 대부분 “human”으로 응답 → 서로 거의 유사
  • Claude와 DeepSeek는 판단 기준이 다름(예측 경향이 다르다) → 하기 표의 예측 일치율이 64%(AC1), 70%(AC2) 에 불과함을 알 수 있다. 

 

2.2 Citation Classification

1) 목적

  • 인용문의 문맥에 따라 인용이 중요(Salient)한지 부차(Incidental)한지를 분류
  • CC1: 4-class (FI, TB, BG, CP)
  • CC2: 2-class (S = FI+TB, I = BG+CP)

2) 데이터: CitaStat

  • 출처: 통계학 4대 저널 PDF 전체 (1996–2020)
  • 총 367,000건 인용문 중 무작위 3,000건 추출
  • ‘불확실’ 라벨 20건 제외 → 2,980건 라벨링 완료
  • 클래스 분포: BG(57.8%), TB(26%), CP(10.6%), FI(5.7%)

3) 실험 구성

  • 모든 모델 동일 프롬프트


  • DeepSeek-R1은 5% 표본(149건)만 실행
  • DeepSeek-V3는 전체 샘플에 대해 실행

4) 실험 결과

(1) 오류율(Error Rate)

CC1 (4-class):

  • Claude: 0.327 → 가장 낮은 오류율, 최고 성능
  • Gemini: 0.347, GPT-4o: 0.363 → 중간 성능
  • DeepSeek-R1: 0.403 (5% 샘플 기준) → Claude·GPT 사이
  • DeepSeek-V3: 0.432
  • LLaMA: 0.576 → 가장 낮은 성능

CC2 (2-class):

  • Claude: 0.261 → 가장 낮은 오류율
  • DeepSeek-R1: 0.275 → Claude 다음으로 우수
  • Gemini: 0.313, DeepSeek-V3: 0.332, GPT-4o: 0.371 → 중간 성능
  • LLaMA: 0.457 → 최하위

 

(2) 추론 시간(Inference Time)

 

  • 가장 빠른 모델:
    • GPT-4o: 15분, Gemini: 25분
  • 가장 느린 모델:
    • DeepSeek-V3: 3–4시간, LLaMA: 4–5시간
  • 중간권 모델:
    • Claude: 1–2시간, DeepSeek-R1: 전체 미실행 (5% 샘플만 평가)

 

 

(3) 비용(Cost, USD)

 

  • 가장 비용 효율적:
    • DeepSeek-V3: $0.08
    • DeepSeek-R1: $0.04–$0.05 수준으로 추정 (전체 비용 미기재)
  • 중간권 모델:
    • Gemini: $0.12, GPT-4o: $0.30, LLaMA: $1.20
  • 가장 고가:
    • Claude: $12.30 (CC1 + CC2 전체 실행 기준)

 

5) 난이도별 오류율 

CitaStat 데이터셋 내 인용문 2,980건을 오류율 기준으로 세 구간으로 나눔:

  • Easy (하위 30%) / Medium (중간 40%) / Difficult (상위 30%)
    ※ DeepSeek-R1은 전체 샘플에 대한 실행이 아니므로 분석에서 제외됨.

  • Easy 그룹에서는 대부분 모델이 오류율 0.01 미만 (예외: LLaMA는 0.063)
  • Medium 그룹에서 가장 낮은 오류율은 Claude (0.177), 다음은 Gemini (0.211)
  • Difficult 그룹에서는 모든 모델 성능이 급락
    → GPT가 가장 낮은 오류율(0.832), DeepSeek-V3는 가장 높은 오류율(0.956)

6) 예측 유사도 분석

 

  • DeepSeek-R1은 전체 샘플을 실행하지 않았기 때문에 유사도 분석에서 제외됨
  • 5개 모델(Claude, DeepSeek-V3, Gemini, GPT, LLaMA) 간 예측 일치율을 4-class(CC1), 2-class(CC2) 각각에 대해 계산
  • Claude–Gemini, Claude–DeepSeek-V3, Gemini–DeepSeek-V3 간 유사도가 높음 (최대 83%)
  • LLaMA는 모든 모델과의 유사도가 낮음, 특히 2-class에서도 < 67%
  • GPT는 Claude 및 Gemini와는 중간 수준 유사도 유지

 

 

3. Discussion 

(1) 연구 동기 및 비교 대상

  • DeepSeek은 2025년 1월 20일 최신 버전 공개 이후 AI 커뮤니티 안팎에서 큰 관심을 받음.
  • 이에 따라 Claude, Gemini, GPT, LLaMA 등 기존의 대표적인 LLM들과 DeepSeek을 비교하는 것이 중요함.
  • 비교 과제는 짧은 텍스트 기반 예측에 초점을 둔 두 분류 문제:
    • 저자 판별 (Authorship Classification)
    • 인용 유형 분류 (Citation Classification)

(2) 주요 발견

  • 정확도 측면에서:
    • DeepSeek은 Gemini, GPT, LLaMA보다 항상 우수
    • 하지만 Claude보다는 일관되게 낮은 성능

(3) 향후 확장 방향 제안

  1. 다양한 과제 확장
    • 예: 자연어처리(NLP), 컴퓨터비전(CV) 과제
    • 예시로 ImageNet 분류 정확도 비교 실험 제안
  2. 프롬프트 개선을 위한 통계 기법 결합
    • 예: 저자 판별에서 AI-작성 vs 인간-작성 텍스트 간 판별력 있는 단어 집합을 통계적으로 선별
    • 이를 기존 프롬프트에 삽입하여 성능 향상 기대
  3. 데이터셋 활용 확대
    • MadStatAI: AI 생성 문서의 특징 분석에 활용 가능
    • CitaStat: 저자 영향력 측정, 연구 주제 추정 등에 활용 가능 (예: Ji et al., 2022; Ke et al., 2024)