* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다
1. 이론 정리
1) 정의
중심극한정리(Central Limit Theorem, CLT)는 독립이고 동일하게 분포된 랜덤 변수들의 합이나 평균이 점점 더 많은 개수로 증가할 때, 그 분포가 정규 분포에 가까워진다는 중요한 통계학 이론입니다.
-> 표본 크기가 커질수록 표본 평균의 분포는 원래 분포의 형태와 상관없이 정규분포에 가까워진다.(대수의 법칙과 다름)
이는 원래의 분포가 정규 분포가 아니더라도, 랜덤 변수의 표본 크기가 충분히 클 경우 표본 평균이 정규 분포에 가까워지는 성질을 설명합니다. 이 정리는 확률론과 통계학에서 중요한 역할을 하며, 복잡한 분포의 데이터를 정규 분포라는 간단한 형태로 분석할 수 있게 합니다.
2) 수학적 표현
랜덤 변수 \(X_1, X_2, \ldots, X_n\)이 독립적이고 동일한 분포를 가지며, 각각 기대값 \(\mu\)와 분산 \(\sigma^2\)를 가질 때, 표본 평균 \(\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i\)의 분포는 다음과 같이 근사할 수 있습니다.
\[ Z = \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \xrightarrow{n \to \infty} N(0, 1) \]
즉, 표준화된 표본 평균 \(Z\)는 점점 정규 분포 \(N(0, 1)\)에 가까워집니다.
3) 증명
중심극한정리의 증명은 원문에서 언급된 내용을 요약하면 다음과 같은 방식으로 접근합니다.
- 표본 평균의 표준화: 표본 평균 \(\bar{X}_n\)를 \(\mu\)와 \(\sigma^2\)를 사용해 표준화합니다.
- 모멘트 생성 함수(MGF): 랜덤 변수들의 분포를 모멘트 생성 함수로 표현하고, \(n \to \infty\)에서 정규 분포의 MGF로 수렴함을 보입니다.
2. 예제
예제 1
한 도시의 평균 일일 온도가 \(\mu = 20\), 분산이 \(\sigma^2 = 4\)라 하자. \(n = 50\)일간의 평균 일일 온도가 \(21\) 이상일 확률을 구하시오.
풀이
표본 평균 \(\bar{X}_n\)의 분포는 \(\bar{X}_n \sim N(\mu, \frac{\sigma^2}{n}) = N(20, \frac{4}{50})\)입니다.
\[P(\bar{X}_n \geq 21) = P\left(Z \geq \frac{21 - 20}{\sqrt{\frac{4}{50}}}\right) = P(Z \geq 3.54).\]
정규분포표를 사용하면 \(P(Z \geq 3.54) \approx 0.0002\)입니다.
예제 2
주사위를 100번 던져 평균 눈금 수가 \(3.7\) 이상일 확률을 계산하시오.
풀이
주사위는 \(\mu = 3.5\), \(\sigma^2 = \frac{35}{12}\)을 가집니다.
표본 평균의 분포는 \(\bar{X}_{100} \sim N(3.5, \frac{35}{1200})\)이고,
\[P(\bar{X}_{100} \geq 3.7) = P\left(Z \geq \frac{3.7 - 3.5}{\sqrt{\frac{35}{1200}}}\right) = P(Z \geq 2.53).\]
정규분포표를 사용하면 \(P(Z \geq 2.53) \approx 0.0057\)입니다.
예제 3
어떤 공장에서 생산된 제품의 평균 중량은 \(10 kg\), 표준편차는 \(2 kg\)입니다. 64개의 제품을 샘플로 선택했을 때 평균 중량이 \(9.5 kg\) 이하일 확률은?
풀이
표본 평균 \(\bar{X}_{64} \sim N(10, \frac{4}{64}) = N(10, 0.25)\)에서
\[P(\bar{X}_{64} \leq 9.5) = P\left(Z \leq \frac{9.5 - 10}{\sqrt{0.25}}\right) = P(Z \leq -2).\]
정규분포표에서 \(P(Z \leq -2) = 0.0228\).
3. 연습문제
1) 문제
1. 주사위를 36번 던질 때 평균 눈금 수가 \(4\) 이상일 확률은?
2. 평균 \(100\), 표준편차 \(15\)인 시험에서 36명의 학생 점수 평균이 \(110\) 이하일 확률을 구하시오.
3. 특정 공장의 불량률이 \(5%\)일 때, 400개의 샘플에서 불량률이 \(7%\)를 넘을 확률을 계산하시오.
2) 답
1) 문제 1: 주사위를 36번 던질 때 평균 눈금 수가 4 이상일 확률
주사위의 눈금은 \(\mu = 3.5\), \(\sigma^2 = \frac{35}{12}\) (분산)입니다.
표본 평균 \(\bar{X}_{36}\)의 분포는
\[\bar{X}_{36} \sim N\left(3.5, \frac{\sigma^2}{n}\right) = N\left(3.5, \frac{35}{432}\right).\]
표준화된 확률변수를 사용하면:
\[P(\bar{X}_{36} \geq 4) = P\left(Z \geq \frac{4 - 3.5}{\sqrt{\frac{35}{432}}}\right) = P\left(Z \geq 2.19\right).\]
정규분포표에서 \(P(Z \geq 2.19) = 0.0143\).
2) 문제 2: 시험에서 36명의 학생 평균 점수가 \(110\) 이하일 확률
시험 점수는 \(\mu = 100\), \(\sigma = 15\)입니다.
표본 평균 \(\bar{X}_{36}\)의 분포는
\[\bar{X}_{36} \sim N\left(100, \frac{15^2}{36}\right) = N(100, 2.5).\]
표준화된 확률변수로 계산하면:
\[P(\bar{X}_{36} \leq 110) = P\left(Z \leq \frac{110 - 100}{\sqrt{2.5}}\right) = P(Z \leq 6.32).\]
\(P(Z \leq 6.32) \approx 1.0000\) (거의 확실히 \(110\) 이하).
3) 문제 3: 400개의 샘플에서 불량률이 \(7\%\)를 넘을 확률
불량률의 모비율 \(\hat{p}\)는
\[\hat{p} \sim N\left(0.05, \sqrt{\frac{0.05 \cdot 0.95}{400}}\right) = N\left(0.05, 0.0109\right).\]
표준화된 확률변수로 계산하면:
\[P(\hat{p} \geq 0.07) = P\left(Z \geq \frac{0.07 - 0.05}{0.0109}\right) = P(Z \geq 1.83).\]
정규분포표에서 \(P(Z \geq 1.83) = 0.0336\).
# R code
# 문제 1
pnorm((4 - 3.5) / sqrt(35 / 432), lower.tail = FALSE)
# 문제 2
pnorm((110 - 100) / sqrt(15^2 / 36))
# 문제 3
pnorm((0.07 - 0.05) / sqrt(0.05 0.95 / 400), lower.tail = FALSE)
# Python code
from scipy.stats import norm
import numpy as np
# 문제 1
prob1 = norm.sf((4 - 3.5) / np.sqrt(35 / 432))
# 문제 2
prob2 = norm.cdf((110 - 100) / np.sqrt(152 / 36))
# 문제 3
prob3 = norm.sf((0.07 - 0.05) / np.sqrt(0.05 0.95 / 400))
print(prob1, prob2, prob3)
중심극한 정리 상세한 증명
1. 중심극한정리의 기본 설정
- \( X_1, X_2, \ldots, X_n \)은 독립적이고 동일하게 분포된 랜덤 변수입니다.
- 각각의 랜덤 변수는 기대값 \( \mu \)와 분산 \( \sigma^2 \)를 가집니다. 즉,
\[E[X_i] = \mu, \quad \text{Var}(X_i) = \sigma^2, \quad i = 1, 2, \ldots, n.\]
- 표본 평균 \(\bar{X}_n\)는 다음과 같이 정의됩니다.
\[\bar{X}_n = \frac{1}{n} \sum_{i=1}^n X_i.\]
중심극한정리는 \(\bar{X}_n\)의 표준화된 값 \( Z_n \)이 정규 분포에 수렴함을 보여줍니다.
\[Z_n = \frac{\sqrt{n}(\bar{X}_n - \mu)}{\sigma} \xrightarrow{d} N(0, 1), \quad \text{(n → ∞)}.\]
여기서 \(\xrightarrow{d}\)는 분포의 수렴(convergence in distribution)을 의미합니다.
2. 증명
1) 표준화 및 합 표현
표본 평균 \(\bar{X}_n\)를 표준화하면 다음과 같습니다.
\[Z_n = \frac{\sqrt{n}(\bar{X}_n - \mu)}{\sigma} = \frac{\sum_{i=1}^n (X_i - \mu)}{\sigma \sqrt{n}}.\]
위 식에서 \((X_i - \mu)\)는 원래의 랜덤 변수 \(X_i\)에서 기대값을 뺀 편차로, 이는 동일한 분산 \(\sigma^2\)를 가집니다. 이를 다시 표현하면
\[Z_n = \frac{1}{\sqrt{n}} \sum_{i=1}^n \frac{X_i - \mu}{\sigma}.\]
여기서 \(\frac{X_i - \mu}{\sigma}\)는 각 랜덤 변수를 평균 \(0\), 분산 \(1\)로 표준화한 값으로, 이를 \(Y_i\)라고 정의합니다.
\[Y_i = \frac{X_i - \mu}{\sigma}, \quad \text{따라서 } Z_n = \frac{1}{\sqrt{n}} \sum_{i=1}^n Y_i.\]
이제 \(Y_i\)는 독립이고 동일하게 분포된 랜덤 변수이며, \(E[Y_i] = 0\), \(\text{Var}(Y_i) = 1\)입니다.
2) 모멘트 생성 함수(MGF) 사용
랜덤 변수들의 분포가 정규 분포로 수렴함을 보이기 위해, 중심극한정리 증명에서 주로 모멘트 생성 함수(Moment-Generating Function, MGF)를 사용합니다.
MGF는 다음과 같이 정의됩니다.
\[M_{Z_n}(t) = E[e^{tZ_n}].\]
\(Z_n = \frac{1}{\sqrt{n}} \sum_{i=1}^n Y_i\)이므로, \(Z_n\)의 MGF는 다음과 같이 나타납니다.
\[M_{Z_n}(t) = E\left[\exp\left(t \cdot \frac{1}{\sqrt{n}} \sum_{i=1}^n Y_i\right)\right].\]
랜덤 변수 \(Y_i\)들이 독립적이므로, 지수 함수의 곱셈 규칙을 사용해 분리할 수 있습니다.
\[M_{Z_n}(t) = \prod_{i=1}^n E\left[\exp\left(\frac{t}{\sqrt{n}} Y_i\right)\right].\]
이제 각 \(Y_i\)의 MGF \(M_{Y}(t)\)를 계산합니다. \(Y_i\)의 기대값은 0이고 분산은 1이므로, 테일러 전개를 통해 \(M_Y(t)\)를 근사할 수 있습니다.
\[E\left[\exp\left(\frac{t}{\sqrt{n}} Y_i\right)\right] = 1 + \frac{t^2}{2n} + O\left(\frac{1}{n^2}\right).\]
이를 \(n\)개의 곱으로 확장하면,
\[M_{Z_n}(t) = \left(1 + \frac{t^2}{2n} + O\left(\frac{1}{n^2}\right)\right)^n.\]
3) 로그 변환 및 극한 계산
로그를 취해 계산하면,
\[\log M_{Z_n}(t) = n \cdot \log\left(1 + \frac{t^2}{2n} + O\left(\frac{1}{n^2}\right)\right).\]
테일러 전개를 사용하여 로그를 근사하면,
\[\log\left(1 + \frac{t^2}{2n} + O\left(\frac{1}{n^2}\right)\right) \approx \frac{t^2}{2n}.\]
따라서,
\[\log M_{Z_n}(t) \approx n \cdot \frac{t^2}{2n} = \frac{t^2}{2}.\]
이를 다시 지수 함수로 변환하면,
\[M_{Z_n}(t) \to \exp\left(\frac{t^2}{2}\right), \quad \text{as } n \to \infty.\]
이 결과는 표준 정규 분포 \(N(0, 1)\)의 MGF와 일치합니다. 따라서, \(Z_n\)은 \(N(0, 1)\)로 분포 수렴합니다.
3. 결론
중심극한정리는 다음과 같이 요약됩니다.
랜덤 변수 \(X_1, X_2, \ldots, X_n\)이 독립이고 동일한 분포를 가질 때, \(n \to \infty\)에서 표본 평균 \(\bar{X}_n\)의 표준화된 분포는 정규 분포 \(N(0, 1)\)에 수렴합니다.
증명은 표본 평균의 표준화를 통해 시작하며, 모멘트 생성 함수(MGF)를 사용하여 정규 분포로의 수렴을 보입니다.