통계

5.6 Distributions of Functionsof Random Variables -The Central Limit Theorem

VirtualJin 2025. 1. 3. 13:00

* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다


1. 이론 정리
1) 정의  
중심극한정리(Central Limit Theorem, CLT)는 독립이고 동일하게 분포된 랜덤 변수들의 합이나 평균이 점점 더 많은 개수로 증가할 때, 그 분포가 정규 분포에 가까워진다는 중요한 통계학 이론입니다.  
-> 표본 크기가 커질수록 표본 평균의 분포는 원래 분포의 형태와 상관없이 정규분포에 가까워진다.(대수의 법칙과 다름)


이는 원래의 분포가 정규 분포가 아니더라도, 랜덤 변수의 표본 크기가 충분히 클 경우 표본 평균이 정규 분포에 가까워지는 성질을 설명합니다. 이 정리는 확률론과 통계학에서 중요한 역할을 하며, 복잡한 분포의 데이터를 정규 분포라는 간단한 형태로 분석할 수 있게 합니다.  

 2) 수학적 표현  
랜덤 변수 \(X_1, X_2, \ldots, X_n\)이 독립적이고 동일한 분포를 가지며, 각각 기대값 \(\mu\)와 분산 \(\sigma^2\)를 가질 때, 표본 평균 \(\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i\)의 분포는 다음과 같이 근사할 수 있습니다.  
\[ Z = \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} \xrightarrow{n \to \infty} N(0, 1) \]  
즉, 표준화된 표본 평균 \(Z\)는 점점 정규 분포 \(N(0, 1)\)에 가까워집니다.  

3) 증명  
중심극한정리의 증명은 원문에서 언급된 내용을 요약하면 다음과 같은 방식으로 접근합니다.  
- 표본 평균의 표준화: 표본 평균 \(\bar{X}_n\)를 \(\mu\)와 \(\sigma^2\)를 사용해 표준화합니다.  
- 모멘트 생성 함수(MGF): 랜덤 변수들의 분포를 모멘트 생성 함수로 표현하고, \(n \to \infty\)에서 정규 분포의 MGF로 수렴함을 보입니다.  

2. 예제  
예제 1  
한 도시의 평균 일일 온도가 \(\mu = 20\), 분산이 \(\sigma^2 = 4\)라 하자. \(n = 50\)일간의 평균 일일 온도가 \(21\) 이상일 확률을 구하시오.  

풀이  
표본 평균 \(\bar{X}_n\)의 분포는 \(\bar{X}_n \sim N(\mu, \frac{\sigma^2}{n}) = N(20, \frac{4}{50})\)입니다.  
\[P(\bar{X}_n \geq 21) = P\left(Z \geq \frac{21 - 20}{\sqrt{\frac{4}{50}}}\right) = P(Z \geq 3.54).\]  
정규분포표를 사용하면 \(P(Z \geq 3.54) \approx 0.0002\)입니다.  

예제 2  
주사위를 100번 던져 평균 눈금 수가 \(3.7\) 이상일 확률을 계산하시오.  

풀이  
주사위는 \(\mu = 3.5\), \(\sigma^2 = \frac{35}{12}\)을 가집니다.  
표본 평균의 분포는 \(\bar{X}_{100} \sim N(3.5, \frac{35}{1200})\)이고,  
\[P(\bar{X}_{100} \geq 3.7) = P\left(Z \geq \frac{3.7 - 3.5}{\sqrt{\frac{35}{1200}}}\right) = P(Z \geq 2.53).\]  
정규분포표를 사용하면 \(P(Z \geq 2.53) \approx 0.0057\)입니다.  

예제 3  
어떤 공장에서 생산된 제품의 평균 중량은 \(10 kg\), 표준편차는 \(2 kg\)입니다. 64개의 제품을 샘플로 선택했을 때 평균 중량이 \(9.5 kg\) 이하일 확률은?  

풀이  
표본 평균 \(\bar{X}_{64} \sim N(10, \frac{4}{64}) = N(10, 0.25)\)에서  
\[P(\bar{X}_{64} \leq 9.5) = P\left(Z \leq \frac{9.5 - 10}{\sqrt{0.25}}\right) = P(Z \leq -2).\]  
정규분포표에서 \(P(Z \leq -2) = 0.0228\).  

3. 연습문제  
1) 문제  
1. 주사위를 36번 던질 때 평균 눈금 수가 \(4\) 이상일 확률은?  
2. 평균 \(100\), 표준편차 \(15\)인 시험에서 36명의 학생 점수 평균이 \(110\) 이하일 확률을 구하시오.  
3. 특정 공장의 불량률이 \(5%\)일 때, 400개의 샘플에서 불량률이 \(7%\)를 넘을 확률을 계산하시오.  

2) 답  
1) 문제 1: 주사위를 36번 던질 때 평균 눈금 수가 4 이상일 확률  
주사위의 눈금은 \(\mu = 3.5\), \(\sigma^2 = \frac{35}{12}\) (분산)입니다.  
표본 평균 \(\bar{X}_{36}\)의 분포는  
\[\bar{X}_{36} \sim N\left(3.5, \frac{\sigma^2}{n}\right) = N\left(3.5, \frac{35}{432}\right).\]  
표준화된 확률변수를 사용하면:  
\[P(\bar{X}_{36} \geq 4) = P\left(Z \geq \frac{4 - 3.5}{\sqrt{\frac{35}{432}}}\right) = P\left(Z \geq 2.19\right).\]  
정규분포표에서 \(P(Z \geq 2.19) = 0.0143\).  

2) 문제 2: 시험에서 36명의 학생 평균 점수가 \(110\) 이하일 확률  
시험 점수는 \(\mu = 100\), \(\sigma = 15\)입니다.  
표본 평균 \(\bar{X}_{36}\)의 분포는  
\[\bar{X}_{36} \sim N\left(100, \frac{15^2}{36}\right) = N(100, 2.5).\]  
표준화된 확률변수로 계산하면:  
\[P(\bar{X}_{36} \leq 110) = P\left(Z \leq \frac{110 - 100}{\sqrt{2.5}}\right) = P(Z \leq 6.32).\]  
\(P(Z \leq 6.32) \approx 1.0000\) (거의 확실히 \(110\) 이하).  

3) 문제 3: 400개의 샘플에서 불량률이 \(7\%\)를 넘을 확률  
불량률의 모비율 \(\hat{p}\)는  
\[\hat{p} \sim N\left(0.05, \sqrt{\frac{0.05 \cdot 0.95}{400}}\right) = N\left(0.05, 0.0109\right).\]  
표준화된 확률변수로 계산하면:  
\[P(\hat{p} \geq 0.07) = P\left(Z \geq \frac{0.07 - 0.05}{0.0109}\right) = P(Z \geq 1.83).\]  
정규분포표에서 \(P(Z \geq 1.83) = 0.0336\).  

# R code
# 문제 1
pnorm((4 - 3.5) / sqrt(35 / 432), lower.tail = FALSE)

# 문제 2
pnorm((110 - 100) / sqrt(15^2 / 36))

# 문제 3
pnorm((0.07 - 0.05) / sqrt(0.05  0.95 / 400), lower.tail = FALSE)
# Python code
from scipy.stats import norm
import numpy as np

# 문제 1
prob1 = norm.sf((4 - 3.5) / np.sqrt(35 / 432))

# 문제 2
prob2 = norm.cdf((110 - 100) / np.sqrt(152 / 36))

# 문제 3
prob3 = norm.sf((0.07 - 0.05) / np.sqrt(0.05  0.95 / 400))

print(prob1, prob2, prob3)

중심극한 정리 상세한 증명

1. 중심극한정리의 기본 설정  
- \( X_1, X_2, \ldots, X_n \)은 독립적이고 동일하게 분포된 랜덤 변수입니다.  
- 각각의 랜덤 변수는 기대값 \( \mu \)와 분산 \( \sigma^2 \)를 가집니다. 즉,  
  \[E[X_i] = \mu, \quad \text{Var}(X_i) = \sigma^2, \quad i = 1, 2, \ldots, n.\]  
- 표본 평균 \(\bar{X}_n\)는 다음과 같이 정의됩니다.  
  \[\bar{X}_n = \frac{1}{n} \sum_{i=1}^n X_i.\]  

중심극한정리는 \(\bar{X}_n\)의 표준화된 값 \( Z_n \)이 정규 분포에 수렴함을 보여줍니다.  
\[Z_n = \frac{\sqrt{n}(\bar{X}_n - \mu)}{\sigma} \xrightarrow{d} N(0, 1), \quad \text{(n → ∞)}.\]  
여기서 \(\xrightarrow{d}\)는 분포의 수렴(convergence in distribution)을 의미합니다.  

2. 증명  
1) 표준화 및 합 표현  
표본 평균 \(\bar{X}_n\)를 표준화하면 다음과 같습니다.  
\[Z_n = \frac{\sqrt{n}(\bar{X}_n - \mu)}{\sigma} = \frac{\sum_{i=1}^n (X_i - \mu)}{\sigma \sqrt{n}}.\]  
위 식에서 \((X_i - \mu)\)는 원래의 랜덤 변수 \(X_i\)에서 기대값을 뺀 편차로, 이는 동일한 분산 \(\sigma^2\)를 가집니다. 이를 다시 표현하면  
\[Z_n = \frac{1}{\sqrt{n}} \sum_{i=1}^n \frac{X_i - \mu}{\sigma}.\]  
여기서 \(\frac{X_i - \mu}{\sigma}\)는 각 랜덤 변수를 평균 \(0\), 분산 \(1\)로 표준화한 값으로, 이를 \(Y_i\)라고 정의합니다.  
\[Y_i = \frac{X_i - \mu}{\sigma}, \quad \text{따라서 } Z_n = \frac{1}{\sqrt{n}} \sum_{i=1}^n Y_i.\]  
이제 \(Y_i\)는 독립이고 동일하게 분포된 랜덤 변수이며, \(E[Y_i] = 0\), \(\text{Var}(Y_i) = 1\)입니다.  

2) 모멘트 생성 함수(MGF) 사용  
랜덤 변수들의 분포가 정규 분포로 수렴함을 보이기 위해, 중심극한정리 증명에서 주로 모멘트 생성 함수(Moment-Generating Function, MGF)를 사용합니다.  
MGF는 다음과 같이 정의됩니다.  
\[M_{Z_n}(t) = E[e^{tZ_n}].\]  

\(Z_n = \frac{1}{\sqrt{n}} \sum_{i=1}^n Y_i\)이므로, \(Z_n\)의 MGF는 다음과 같이 나타납니다.  
\[M_{Z_n}(t) = E\left[\exp\left(t \cdot \frac{1}{\sqrt{n}} \sum_{i=1}^n Y_i\right)\right].\]  

랜덤 변수 \(Y_i\)들이 독립적이므로, 지수 함수의 곱셈 규칙을 사용해 분리할 수 있습니다.  
\[M_{Z_n}(t) = \prod_{i=1}^n E\left[\exp\left(\frac{t}{\sqrt{n}} Y_i\right)\right].\]  

이제 각 \(Y_i\)의 MGF \(M_{Y}(t)\)를 계산합니다. \(Y_i\)의 기대값은 0이고 분산은 1이므로, 테일러 전개를 통해 \(M_Y(t)\)를 근사할 수 있습니다.  
\[E\left[\exp\left(\frac{t}{\sqrt{n}} Y_i\right)\right] = 1 + \frac{t^2}{2n} + O\left(\frac{1}{n^2}\right).\]  

이를 \(n\)개의 곱으로 확장하면,  
\[M_{Z_n}(t) = \left(1 + \frac{t^2}{2n} + O\left(\frac{1}{n^2}\right)\right)^n.\]  

3) 로그 변환 및 극한 계산  
로그를 취해 계산하면,  
\[\log M_{Z_n}(t) = n \cdot \log\left(1 + \frac{t^2}{2n} + O\left(\frac{1}{n^2}\right)\right).\]  
테일러 전개를 사용하여 로그를 근사하면,  
\[\log\left(1 + \frac{t^2}{2n} + O\left(\frac{1}{n^2}\right)\right) \approx \frac{t^2}{2n}.\]  
따라서,  
\[\log M_{Z_n}(t) \approx n \cdot \frac{t^2}{2n} = \frac{t^2}{2}.\]  

이를 다시 지수 함수로 변환하면,  
\[M_{Z_n}(t) \to \exp\left(\frac{t^2}{2}\right), \quad \text{as } n \to \infty.\]  

이 결과는 표준 정규 분포 \(N(0, 1)\)의 MGF와 일치합니다. 따라서, \(Z_n\)은 \(N(0, 1)\)로 분포 수렴합니다.  

3. 결론  

중심극한정리는 다음과 같이 요약됩니다.  
랜덤 변수 \(X_1, X_2, \ldots, X_n\)이 독립이고 동일한 분포를 가질 때, \(n \to \infty\)에서 표본 평균 \(\bar{X}_n\)의 표준화된 분포는 정규 분포 \(N(0, 1)\)에 수렴합니다.  

증명은 표본 평균의 표준화를 통해 시작하며, 모멘트 생성 함수(MGF)를 사용하여 정규 분포로의 수렴을 보입니다.