* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다
1. 이론 정리
1) 정의 및 개념
- 기술 통계(Descriptive Statistics): 데이터를 요약하고 시각화하여 주요 특징을 이해하기 위한 통계 기법. 이는 평균, 중앙값, 분산과 같은 기술적 척도를 사용하여 데이터를 이해하는 데 도움을 준다.
- 기술 통계는 데이터의 패턴을 파악하거나 특정 요약 값을 계산하여 복잡한 데이터를 간결하게 표현한다.
2) 주요 정의
히스토그램(Histogram)의 유형
(1) 빈도 히스토그램(Frequency Histogram):
- 각 클래스(class)의 빈도(빈도수)를 시각적으로 나타낸 그래프.
- 높이는 클래스에 속하는 데이터 수를 나타냄.
(2) 상대 빈도 히스토그램(Relative Frequency Histogram):
- 각 클래스의 상대 빈도(빈도수 ÷ 전체 데이터 수)를 나타낸 히스토그램.
- 높이는 전체 데이터에서 해당 클래스가 차지하는 비율.
(3) 밀도 히스토그램(Density Histogram):
- 상대 빈도를 클래스의 폭으로 나눈 값을 사용하여 생성된 히스토그램.
- 밀도는 높이 × 폭의 합이 1이 되도록 정규화된 값.
- 특히 연속형 데이터의 분포를 시각화할 때 사용.
경험적 분포(Empirical Distribution)
- 경험적 누적 분포 함수(Empirical Cumulative Distribution Function, ECDF):
- 데이터를 정렬하여 누적 상대 빈도를 계산한 함수.
- 정의:
\[F(x) = \frac{\text{데이터 중 } \leq x \text{인 값의 수}}{\text{전체 데이터 수}}\]
- \( F(x) \)는 관측값이 \( x \) 이하일 확률을 나타냄.
- ECDF는 연속형 데이터와 이산형 데이터를 모두 표현 가능하며, 데이터를 요약하고 시각화하는 데 매우 유용함.
연속형 데이터(Continuous-Type Data)
- 결과가 특정 구간에서 연속적인 값을 가질 수 있는 경우.
- 예: 대기 시간, 무게, 길이 등.
- 모드(Mode):
- 히스토그램에서 가장 높은 빈도를 가지는 클래스의 클래스 중심값(class mark).
- 이 클래스는 최빈 클래스(Modal Class)라 불림.
3) 분산(Variance)의 증명
모집단 분산(Population Variance):
- 정의: 데이터가 평균에서 얼마나 떨어져 있는지 측정.
- 공식:
\[\sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2\]
표본분산(Sample Variance):
- 표본 데이터를 기반으로 분산을 추정.
- 공식:
\[s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2\]
표본분산 증명 과정
표본분산(sample variance)의 정의는 모집단의 분산을 표본 데이터로 추정할 때 사용됩니다. 정의의 기초는 모집단 분산에서 출발하며, 표본의 특성과 표본평균의 성질을 고려하여 유도됩니다.
(1) 모집단 분산의 정의
모집단 분산(\( \sigma^2 \))은 모집단의 평균(\( \mu \))에서 데이터 값들이 얼마나 떨어져 있는지를 나타냅니다.
\[\sigma^2 = \frac{1}{N} \sum_{i=1}^N (x_i - \mu)^2\]
여기서:
- \( N \): 모집단 크기.
- \( x_i \): 모집단의 각 데이터 값.
- \( \mu \): 모집단 평균(\( \mu = \frac{1}{N} \sum_{i=1}^N x_i \)).
(2) 표본 데이터를 사용하는 이유와 표본분산 정의의 필요성
모집단 전체 데이터(\( N \))를 알 수 없기 때문에, 표본(sample) 데이터를 통해 모집단 분산을 추정합니다. 표본에서 분산을 계산할 때, 모집단 평균(\( \mu \)) 대신 표본평균(\( \bar{x} \))을 사용해야 합니다.
표본 데이터의 크기가 \( n \)일 때, 표본 분산의 초기 정의는 다음과 같이 보입니다.
\[s^2 = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2\]
하지만, 이렇게 정의하면 표본 분산이 모집단 분산을 일관되게 추정하지 못함이 수학적으로 밝혀졌습니다. 이를 수정하기 위해 분모를 \( n-1 \)로 조정하여 불편추정량(Unbiased Estimator)이 되도록 합니다.
(3) 표본분산의 정의
표본분산의 정의는 다음과 같습니다.
\[s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2\]
여기서:
- \( s^2 \): 표본분산.
- \( n \): 표본 크기.
- \( x_i \): 표본 데이터 값.
- \( \bar{x} \): 표본평균(\( \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i \)).
(4) 표본분산 정의의 증명 (왜 \( n-1 \)인가?)
목표: 표본분산 정의가 모집단 분산의 불편추정량이 되도록 함을 증명.
(가) 표본평균과의 차이 제곱합의 기댓값
표본분산은 \( (x_i - \bar{x})^2 \)의 평균으로 정의되며, 이를 모집단 분산과 비교합니다.
표본 데이터의 평균 \( \bar{x} \)와 모집단 평균 \( \mu \)의 관계를 표현하면:
\[x_i - \bar{x} = (x_i - \mu) - (\bar{x} - \mu)\]
이제, \( \sum_{i=1}^n (x_i - \bar{x})^2 \)의 기대값을 구합니다:
\[\sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n \left[ (x_i - \mu) - (\bar{x} - \mu) \right]^2\]
(나) 전개 및 분리
우변을 전개하면:
\[(x_i - \bar{x})^2 = (x_i - \mu)^2 - 2(x_i - \mu)(\bar{x} - \mu) + (\bar{x} - \mu)^2\]
전체 합을 구하면:
\[\sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n (x_i - \mu)^2 - 2 \sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) + \sum_{i=1}^n(\bar{x} - \mu)^2\]
(다) 두 번째 항 제거
\[\sum_{i=1}^n (x_i - \mu)(\bar{x} - \mu) = (\bar{x} - \mu) \sum_{i=1}^n (x_i - \mu) = 0\]
왜냐하면 \( \sum_{i=1}^n (x_i - \mu) = 0 \).
따라서:
\[\sum_{i=1}^n (x_i - \bar{x})^2 = \sum_{i=1}^n (x_i - \mu)^2 - n(\bar{x} - \mu)^2\]
(라) 기대값 계산
표본분산의 기대값은:
\[E[s^2] = \frac{1}{n-1} \left[ \sum_{i=1}^n (x_i - \mu)^2 - n(\bar{x} - \mu)^2 \right]\]
\(\bar{x}\)의 분산 \( \text{Var}(\bar{x}) = \frac{\sigma^2}{n} \)를 사용하면:
\[E[s^2] = \frac{1}{n-1} \left[ n\sigma^2 - n\frac{\sigma^2}{n} \right] = \frac{1}{n-1} (n-1)\sigma^2 = \sigma^2\]
2. 예제
2.1 문제
1. 데이터 \(3, 5, 7, 9, 11\)에 대해 평균과 표본분산을 구하시오.
2. 데이터 \(15, 20, 25, 30, 35, 40\)에 대해 상대 빈도 히스토그램을 작성하시오.
3. 데이터 \(2.1, 2.4, 2.8, 3.5, 3.8, 4.0, 4.2, 4.5\)에 대해 경험적 누적 분포 함수(ECDF)를 작성하시오.
2.2 답
1) 평균과 표본분산 계산
(1) 데이터: \(3, 5, 7, 9, 11\)
a) 평균:
\[\bar{x} = \frac{\sum x_i}{n} = \frac{3 + 5 + 7 + 9 + 11}{5} = \frac{35}{5} = 7\]
b) 표본분산:
\[s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2\]
\[s^2 = \frac{1}{5-1} \left[ (3-7)^2 + (5-7)^2 + (7-7)^2 + (9-7)^2 + (11-7)^2 \right]\]
\[s^2 = \frac{1}{4} \left[ (-4)^2 + (-2)^2 + 0^2 + 2^2 + 4^2 \right]\]
\[s^2 = \frac{1}{4} \left[ 16 + 4 + 0 + 4 + 16 \right] = \frac{1}{4} \times 40 = 10\]
c) 결과: 평균 \( \bar{x} = 7 \), 표본분산 \( s^2 = 10 \)
2) 상대 빈도 히스토그램
(1) 데이터: \(15, 20, 25, 30, 35, 40\)
a) 클래스 설정: \( (15, 20], (20, 25], (25, 30], (30, 35], (35, 40] \)
b) 각 클래스 빈도: \(1, 1, 1, 1, 1\)
c) 상대 빈도: \( \frac{1}{6} \approx 0.167 \)
3) 경험적 누적 분포 함수(ECDF)
(1) 데이터: \(2.1, 2.4, 2.8, 3.5, 3.8, 4.0, 4.2, 4.5\)
a) 데이터 정렬: \(2.1, 2.4, 2.8, 3.5, 3.8, 4.0, 4.2, 4.5\)
b) 누적 상대 빈도 계산:
(a) \(x \leq 2.1: \frac{1}{8} = 0.125\)
(b) \(x \leq 2.4: \frac{2}{8} = 0.25\)
(c) \(x \leq 2.8: \frac{3}{8} = 0.375\)
(d) \(x \leq 3.5: \frac{4}{8} = 0.5\)
(e) \(x \leq 3.8: \frac{5}{8} = 0.625\)
(f) \(x \leq 4.0: \frac{6}{8} = 0.75\)
(g) \(x \leq 4.2: \frac{7}{8} = 0.875\)
(h) \(x \leq 4.5: \frac{8}{8} = 1.0\)
3. 연습문제
3.1 문제
1. 데이터 \(12, 15, 20, 22, 25, 30\)에 대해 평균과 표본분산을 구하시오.
2. 데이터 \(5, 10, 15, 20, 25, 30, 35, 40\)에 대해 밀도 히스토그램을 작성하시오.
3. 데이터 \(50, 55, 60, 65, 70, 75, 80\)에 대해 경험적 누적 분포 함수(ECDF)를 작성하시오.
3.2 답
1) 평균과 표본분산
(1) 계산 답:
a) 평균:
\[\bar{x} = \frac{\sum x_i}{n} = \frac{12 + 15 + 20 + 22 + 25 + 30}{6} = \frac{124}{6} \approx 20.67
\]
b) 표본분산:
\[s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2\]
\[s^2 = \frac{1}{6-1} \left[ (12-20.67)^2 + (15-20.67)^2 + \ldots + (30-20.67)^2 \right]\]
\[s^2 \approx \frac{1}{5} \left[ 75.56 + 32.11 + 0.45 + 1.78 + 18.78 + 86.78 \right] \approx 42.89\]
2) 밀도 히스토그램
(1) 계산 답:
a) 클래스 설정: \( (5, 15], (15, 25], (25, 35], (35, 45] \)
b) 빈도: \(2, 2, 2, 2\)
c) 밀도 계산: \(\frac{\text{빈도}}{\text{클래스 폭} \times \text{전체 데이터 수}}\)
\[\text{밀도} = \frac{2}{10 \times 8} = 0.025\]
3) 경험적 누적 분포 함수(ECDF)
(1) 계산 답:
a) 데이터 정렬: \(50, 55, 60, 65, 70, 75, 80\)
b) 누적 상대 빈도 계산:
(a) \(x \leq 50: \frac{1}{7} \approx 0.143\)
(b) \(x \leq 55: \frac{2}{7} \approx 0.286\)
(c) \(x \leq 60: \frac{3}{7} \approx 0.429\)
(d) \(x \leq 65: \frac{4}{7} \approx 0.571\)
(e) \(x \leq 70: \frac{5}{7} \approx 0.714\)
(f) \(x \leq 75: \frac{6}{7} \approx 0.857\)
(g) \(x \leq 80: \frac{7}{7} = 1.0\)
# R code
# 문제1
data <- c(12, 15, 20, 22, 25, 30)
mean(data) # 평균
var(data) # 표본분산
# 문제2
data <- c(5, 10, 15, 20, 25, 30, 35, 40)
hist(data, probability=TRUE, breaks=4, main="Density Histogram", xlab="Data")
# 문제3
data <- c(50, 55, 60, 65, 70, 75, 80)
plot(ecdf(data), main="Empirical CDF", xlab="Data", ylab="F(x)")
# Python code
# 문제1
import numpy as np
data = [12, 15, 20, 22, 25, 30]
mean = np.mean(data)
variance = np.var(data, ddof=1)
print("Mean:", mean)
print("Variance:", variance)
# 문제2
import matplotlib.pyplot as plt
data = [5, 10, 15, 20, 25, 30, 35, 40]
plt.hist(data, bins=4, density=True, edgecolor='black')
plt.title("Density Histogram")
plt.xlabel("Data")
plt.ylabel("Density")
plt.show()
# 문제3
import numpy as np
import matplotlib.pyplot as plt
data = [50, 55, 60, 65, 70, 75, 80]
data_sorted = np.sort(data)
n = len(data)
ecdf = np.arange(1, n+1) / n
plt.step(data_sorted, ecdf, where="post")
plt.title("Empirical CDF")
plt.xlabel("Data")
plt.ylabel("F(x)")
plt.grid()
plt.show()
심슨의 패러독스(Simpson's Paradox)
1. 정의
1) 심슨의 패러독스란?
- 심슨의 패러독스는 두 개 이상의 그룹을 합쳤을 때 나타나는 통계적 경향이, 각 그룹별로 분석했을 때와 반대되는 결과를 나타내는 현상입니다.
- 이는 데이터의 혼란변수(confounding variable)로 인해 발생하며, 데이터의 그룹화 방식이 결과 해석에 큰 영향을 미친다는 것을 보여줍니다.
2) 발생 원인
- 심슨의 패러독스는 다음과 같은 경우에 발생합니다:
(1) 데이터를 나누는 기준(그룹)이 존재하며, 각 그룹에서 결과가 다르게 나타남.
(2) 그룹 간 비율의 차이나 표본 크기가 데이터 결합 후의 결과를 왜곡함.
(3) 혼란변수가 데이터 내에서 결과를 왜곡함.
3) 주요 특징
- 개별 그룹 분석: 그룹별 분석 결과는 동일한 방향을 나타냄.
- 전체 데이터 분석: 그룹을 결합한 전체 결과는 개별 그룹 분석과 반대되는 방향을 보임.
2. 예제
2.1 문제
한 대학에서 남학생과 여학생의 두 그룹이 서로 다른 학과(A와 B)에 지원했습니다. 합격률을 분석한 결과 다음과 같은 통계가 나왔습니다:
1) 남학생과 여학생의 학과별 합격률:
| 성별 | 학과 | 지원자 수 | 합격자 수 | 합격률 (%) |
| 남학생 | A | 80 | 40 | 50 |
| 남학생 | B | 20 | 10 | 50 |
| 여학생 | A | 20 | 5 | 25 |
| 여학생 | B | 80 | 40 | 50 |
2) 전체 합격률 비교:
| 성별 | 전체 지원자 수 | 전체 합격자 수 | 전체 합격률 (%) |
| 남학생 | 100 | 50 | 50 |
| 남학생 | 100 | 45 | 45 |
2.2 분석
1) 학과별 합격률:
- 학과 A에서는 남학생 합격률(50%)이 여학생 합격률(25%)보다 높음.
- 학과 B에서도 남학생 합격률(50%)과 여학생 합격률(50%)이 동일함.
2) 전체 합격률:
- 전체 데이터를 보면 남학생(50%)의 합격률이 여학생(45%)보다 높음.
3) 결론:
- 학과별로 분석하면 남학생의 합격률이 여학생보다 높거나 동일하지만, 전체적으로는 여학생의 합격률이 더 낮게 나타남.
- 이는 학과 간 지원 비율이 다르고, 학과 A의 경쟁률이 높기 때문에 나타난 결과로 해석할 수 있음.
3. 심슨의 패러독스가 주는 교훈
1) 통계적 해석의 주의점
- 데이터를 단순히 결합해서 해석하면, 실제 상황을 왜곡하는 결과를 초래할 수 있음.
2) 혼란변수의 영향
- 혼란변수는 결과에 중대한 영향을 미칠 수 있으며, 이를 통제하지 않으면 잘못된 결론에 도달할 가능성이 큼.
3) 그룹별 데이터 분석의 중요성
- 전체 데이터를 보기 전에, 그룹별로 세부 분석을 수행하여 데이터의 특성을 파악해야 함.
4. 결론
심슨의 패러독스는 통계 분석에서 단순 집계가 아닌 맥락적 이해의 중요성을 강조합니다. 그룹 간 특성과 혼란변수를 제대로 통제하지 않으면, 데이터 분석 결과가 왜곡될 수 있음을 보여줍니다.