* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다
1. 이론 정리
1) 샘플 평균과 샘플 분산 정의
(1) 샘플 평균 (\(\bar{X}\)):
- 정의:
모집단 \(N(\mu, \sigma^2)\)에서 \(n\)개의 샘플 \(X_1, X_2, \dots, X_n\)를 추출했을 때, 샘플 평균은 다음과 같이 정의됩니다.
\[\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i\]
- 분포:
샘플 평균은 정규 분포를 따르며:
\[
\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)
\]
(2) 샘플 분산 (\(S^2\)):
- 정의:
샘플 데이터의 흩어짐 정도를 측정하며 다음과 같이 정의됩니다.
\[
S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2
\]
여기서 \(n-1\)은 자유도를 나타냅니다.
- 분포:
샘플 분산은 다음과 같은 성질을 가집니다:
\[
(n-1) \frac{S^2}{\sigma^2} \sim \chi^2_{n-1}
\]
이는 자유도가 \(n-1\)인 카이제곱 분포를 따릅니다.
2) Theorem 및 Corollary
(1) Theorem 1:
샘플 평균 \(\bar{X}\)는 \(N\left(\mu, \frac{\sigma^2}{n}\right)\)를 따릅니다.
(2) Theorem 2:
샘플 분산 \(S^2\)는 \((n-1)S^2 / \sigma^2 \sim \chi^2_{n-1}\)를 만족합니다.
(3) Corollary (T-분포):
샘플 평균과 분산을 결합하여 \(T\)-분포를 정의할 수 있습니다:
\[
T = \frac{\bar{X} - \mu}{S / \sqrt{n}} \sim t_{n-1}.
\]
2. 증명
1) 샘플 평균 \(\bar{X}\)의 분포 증명
(1) 문제의 설정:
\(X_1, X_2, \dots, X_n\)이 독립적으로 \(N(\mu, \sigma^2)\)를 따를 때, 샘플 평균 \(\bar{X}\)의 분포를 구하라.
(2) 정리 과정:
\[\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i\]
는 \(X_i\)들의 선형 결합입니다. 정규 분포의 선형 결합 성질에 의해 \(\bar{X}\)도 정규 분포를 따릅니다.
(3) 기대값 계산:
\[E(\bar{X}) = E\left(\frac{1}{n} \sum_{i=1}^n X_i\right) = \frac{1}{n} \sum_{i=1}^n E(X_i) = \frac{1}{n} (n\mu) = \mu.\]
(4) 분산 계산:
\[
\text{Var}(\bar{X}) = \text{Var}\left(\frac{1}{n} \sum_{i=1}^n X_i\right) = \frac{1}{n^2} \sum_{i=1}^n \text{Var}(X_i) = \frac{1}{n^2} (n\sigma^2) = \frac{\sigma^2}{n}.
\]
(5) 결론:
따라서 \(\bar{X}\)는 정규 분포를 따르고:
\[\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right).\]
2) 샘플 분산 \(S^2\)의 분포 증명
(1) 문제의 설정:
샘플 분산 \(S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2\)의 분포를 구하라.
(2) 자유도가 \(n-1\)인 이유:
샘플 평균 \(\bar{X}\)는 이미 \(X_1, X_2, \dots, X_n\)에서 계산된 값입니다. 따라서 \(n\)개의 데이터 중 1개는 나머지 데이터에 의해 결정됩니다.
- 즉, 샘플 데이터는 \((n-1)\)개의 독립적인 정보를 제공합니다.
- 이로 인해 \(S^2\)의 분포는 자유도가 \(n-1\)인 분포를 따릅니다.
(3) 분산 계산 과정:
\(X_i\)가 정규 분포를 따르므로, 편차 \((X_i - \mu)\)의 제곱합은 카이제곱 분포를 따릅니다:
\[\sum_{i=1}^n \left(\frac{X_i - \mu}{\sigma}\right)^2 \sim \chi^2_n.\]
(4) 샘플 평균을 고려한 편차의 분리:
\[\sum_{i=1}^n (X_i - \mu)^2 = \sum_{i=1}^n (X_i - \bar{X})^2 + n(\bar{X} - \mu)^2.\]
위 식에서:
- \(\sum_{i=1}^n (X_i - \bar{X})^2\)는 \(n-1\) 자유도를 가진 \(\chi^2\) 분포를 따릅니다.
- \(n(\bar{X} - \mu)^2\)는 1 자유도를 가진 \(\chi^2\) 분포를 따릅니다.
(5) 결론:
\((n-1)S^2 / \sigma^2\)는 \(n-1\) 자유도를 가지는 \(\chi^2\) 분포를 따릅니다:
\[(n-1) \frac{S^2}{\sigma^2} \sim \chi^2_{n-1}.\]
3) \(T\)-분포 증명
(1) 문제의 설정:
\(T = \frac{\bar{X} - \mu}{S / \sqrt{n}}\)가 \(t_{n-1}\) 분포를 따름을 보이시오.
(2) 정리 과정:
- \(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\).
- \((n-1)S^2 / \sigma^2 \sim \chi^2_{n-1}\), 그리고 \(\bar{X}\)와 \(S^2\)는 독립.
(3) 스텝별 계산:
- \(\frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim N(0, 1)\).
- \(\sqrt{\frac{(n-1)S^2}{\sigma^2}} / \sqrt{n-1} \sim \chi^2_{n-1}\)의 제곱근.
(4) 결론:
두 변수의 독립성과 \(T\)-분포 정의에 의해:
\[T = \frac{\bar{X} - \mu}{S / \sqrt{n}} \sim t_{n-1}.\]
2. 예제
1) 문제
1. 모집단 \(N(50, 16)\)에서 \(n=25\)를 추출했다. 샘플 평균의 분포와 샘플 분산의 분포를 구하라.
2. \(P(\bar{X} > 52)\)와 \(P(S^2 > 20)\)를 계산하라.
3. \(T = \frac{\bar{X} - \mu}{S / \sqrt{n}}\)에서 자유도 \(n-1=24\)일 때, \(P(T > 2.064)\)를 계산하라.
2) 답
1. \(\bar{X} \sim N(50, 16/25) = N(50, 0.64)\), \((n-1)S^2 / \sigma^2 \sim \chi^2_{24}\).
2.
- \(P(\bar{X} > 52) = P(Z > \frac{52 - 50}{\sqrt{0.64}}) = P(Z > 2.5) \approx 0.0062\).
- \(P(S^2 > 20) = P\left(\chi^2_{24} > \frac{24 \cdot 20}{16}\right) = P(\chi^2_{24} > 30) \approx 0.112\).
3. \(P(T > 2.064) = 0.025\).
3. 연습문제
1) 문제
1. 모집단 \(N(100, 25)\)에서 \(n=10\)을 추출했다. 샘플 평균과 샘플 분산의 분포를 정의하라.
2. \(P(\bar{X} > 105)\)와 \(P(S^2 > 30)\)를 계산하라.
3. 샘플 크기 \(n=15\)에서 샘플 평균과 분산을 결합하여 \(P(T < -1.761)\)을 계산하라 (\(T \sim t_{n-1}\)).
2) 답
1. \(\bar{X} \sim N(100, 25/10) = N(100, 2.5)\), \((n-1)S^2 / \sigma^2 \sim \chi^2_9\).
2.
- \(P(\bar{X} > 105) = P(Z > \frac{105 - 100}{\sqrt{2.5}}) = P(Z > 3.16) \approx 0.0008\).
- \(P(S^2 > 30) = P\left(\chi^2_{9} > \frac{9 \cdot 30}{25}\right) = P(\chi^2_{9} > 10.8) \approx 0.290\).
3. \(P(T < -1.761) = 0.05\) (자유도 \(n-1=14\)).
# R code
# 1. 샘플 평균 확률 계산
mu <- 50; sigma <- 4; n <- 25
z <- (52 - mu) / (sigma / sqrt(n))
pnorm(z, lower.tail = FALSE) # P(X̄ > 52)
# 2. Chi-squared 분포
pchisq(30, df = 24, lower.tail = FALSE) # P(S^2 > 20)
# 3. T-분포 확률
pt(2.064, df = 24, lower.tail = FALSE) # P(T > 2.064)
# Python code
from scipy.stats import norm, chi2, t
# 1. 샘플 평균 확률 계산
mu, sigma, n = 50, 4, 25
z = (52 - mu) / (sigma / (n**0.5))
prob_mean = 1 - norm.cdf(z)
print("P(X̄ > 52):", prob_mean)
# 2. Chi-squared 분포
prob_var = 1 - chi2.cdf(30, df=24)
print("P(S^2 > 20):", prob_var)
# 3. T-분포 확률
prob_t = 1 - t.cdf(2.064, df=24)
print("P(T > 2.064):", prob_t)
통계적 추론에서 분포 선택: 4x4 매트릭스와 연습문제
1. 4x4 매트릭스: 분포 선택 기준
| 조건 | 모평균을 앎 | 모평균을 모름 |
| 모분산을 앎 | Z-분포 사용 | Z-분포 사용 |
| 모분산을 모름 (표본분산 사용) | Z-분포 (표본 크기 큼) | t-분포 사용 |
2. 분포 선택에 대한 설명
1) 모평균과 모분산을 앎: Z-분포 사용
- 조건:
- 모평균(\(\mu\))과 모분산(\(\sigma^2\))이 알려져 있음.
- 사용 분포: Z-분포 (\(N(0, 1)\)).
- 공식:
\[Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}\]
- 적용 예시: 모집단의 특성이 명확히 알려져 있을 때.
2) 모평균을 모르고, 모분산을 앎: Z-분포 사용
- 조건:
- 모평균은 모르지만, 모분산(\(\sigma^2\))은 알고 있음.
- 사용 분포: Z-분포 (\(N(0, 1)\)).
- 공식:
\[Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}\]
(\(\mu_0\): 가설에서 설정한 평균)
- 적용 예시: 단일 표본 Z-검정에서 사용.
3) 모평균을 알고, 모분산을 모름: Z-분포 (근사적 사용)
- 조건:
- 모평균은 알고 있지만, 모분산은 모름.
- 표본 크기 \(n > 30\)으로 충분히 큰 경우.
- 사용 분포: Z-분포를 근사적으로 사용.
- 공식:
\[Z \approx \frac{\bar{X} - \mu}{S / \sqrt{n}}\]
(\(S^2\): 표본 분산)
- 적용 예시: 표본 크기가 큰 경우 모집단 분산을 모르더라도 Z-분포 사용.
4) 모평균과 모분산을 모름: t-분포 사용
- 조건:
- 모평균과 모분산 모두 알 수 없음.
- 표본 평균(\(\bar{X}\))과 표본 분산(\(S^2\))만 사용할 수 있음.
- 사용 분포: t-분포 (\(t_{n-1}\)).
- 공식:
\[T = \frac{\bar{X} - \mu}{S / \sqrt{n}}\]
(\(n-1\): 자유도)
- 적용 예시: 단일 표본 t-검정, 독립 표본 t-검정.
3. t-분포
t-분포란?
- t-분포는 모분산(\(\sigma^2\))을 알지 못할 때, 표본 평균(\(\bar{X}\))과 표본 분산(\(S^2\))을 이용해 추론할 때 사용하는 분포.
- 표본 크기가 작을수록 t-분포는 표준 정규분포보다 꼬리가 더 두껍다. 이는 표본 분산의 불확실성을 반영하기 때문.
t-분포의 특징
1. 정의:
\[T = \frac{\bar{X} - \mu}{S / \sqrt{n}}, \quad T \sim t_{n-1}\]
- \(\bar{X}\): 표본 평균
- \(S\): 표본 표준편차
- \(n\): 표본 크기
- \(n-1\): 자유도
2. 꼬리의 두꺼움:
- 표본 크기가 작을수록 극단적인 값이 나올 가능성을 반영하여 t-분포는 Z-분포보다 꼬리가 두꺼움.
- 표본 크기가 커질수록 t-분포는 Z-분포에 수렴.
3. 자유도 (\(n-1\)):
- 표본 크기 \(n\)에서 표본 평균 계산에 1개의 자유도를 사용하므로, \(n-1\)개의 자유도만 남음.
t-분포 vs Z-분포 비교
| 특징 | t-분포 | Z-분포 |
| 사용 조건 | 모분산을 모를 때 | 모분산을 알 때 |
| 꼬리의 두께 | 표본 크기가 작을수록 두꺼움 | 꼬리가 얇음 |
| 표본 크기의 영향 | 표본 크기 \(n \to \infty\)일 때 Z에 수렴 | 표본 크기와 무관 |
4. 연습문제
문제
1. 모집단 \(N(100, \sigma^2)\)에서 \(\sigma^2\)를 모른다고 가정합니다. \(n=10\), \(\bar{X}=102\), \(S^2=16\). 모집단 평균이 100인지 검정 (\(\alpha=0.05\)).
2. 모집단의 분산 \(\sigma^2 = 25\)를 알고, \(n=36\), \(\bar{X}=51\). 모집단 평균이 50인지 검정 (\(\alpha=0.05\)).
3. \(n=20\), \(\bar{X}=15\), \(S=5\). 모집단 평균이 12와 다르다는 가설을 검정 (\(\alpha=0.01\)).
답
1. 문제 1 (t-분포 사용):
- 검정 통계량:
\[T = \frac{102 - 100}{\sqrt{16} / \sqrt{10}} = \frac{2}{1.2649} \approx 1.58\]
- \(t_{0.025, 9} = 2.262\). \(T < 2.262\), 귀무가설 기각하지 않음.
2. 문제 2 (Z-분포 사용):
- 검정 통계량:
\[Z = \frac{51 - 50}{\sqrt{25} / \sqrt{36}} = \frac{1}{0.833} \approx 1.2\]
- \(Z_{0.025} = 1.96\). \(Z < 1.96\), 귀무가설 기각하지 않음.
3. 문제 3 (t-분포 사용):
- 검정 통계량:
\[T = \frac{15 - 12}{5 / \sqrt{20}} = \frac{3}{1.118} \approx 2.69\]
- \(t_{0.005, 19} = 2.861\). \(T < 2.861\), 귀무가설 기각하지 않음.
# R code
# 문제 1
t_stat <- (102 - 100) / (sqrt(16) / sqrt(10))
t_critical <- qt(0.975, df = 9)
t_stat; t_critical
# 문제 2
z_stat <- (51 - 50) / (sqrt(25) / sqrt(36))
z_critical <- qnorm(0.975)
z_stat; z_critical
# 문제 3
t_stat <- (15 - 12) / (5 / sqrt(20))
t_critical <- qt(0.995, df = 19)
t_stat; t_critical
# Python code
from scipy.stats import t, norm
import numpy as np
# 문제 1
t_stat = (102 - 100) / (np.sqrt(16) / np.sqrt(10))
t_critical = t.ppf(0.975, df=9)
print("T-statistic:", t_stat, "Critical value:", t_critical)
# 문제 2
z_stat = (51 - 50) / (np.sqrt(25) / np.sqrt(36))
z_critical = norm.ppf(0.975)
print("Z-statistic:", z_stat, "Critical value:", z_critical)
# 문제 3
t_stat = (15 - 12) / (5 / np.sqrt(20))
t_critical = t.ppf(0.995, df=19)
print("T-statistic:", t_stat, "Critical value:", t_critical)