통계

5.5 Distributions of Functionsof Random Variables -Random Functions Associated with Normal Distributions

VirtualJin 2025. 1. 3. 13:00

* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다

1. 이론 정리
1) 샘플 평균과 샘플 분산 정의
(1) 샘플 평균 (\(\bar{X}\)):  
- 정의:  
  모집단 \(N(\mu, \sigma^2)\)에서 \(n\)개의 샘플 \(X_1, X_2, \dots, X_n\)를 추출했을 때, 샘플 평균은 다음과 같이 정의됩니다.
  \[\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i\]
- 분포:  
  샘플 평균은 정규 분포를 따르며:
  \[
  \bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)
  \]

(2) 샘플 분산 (\(S^2\)):  
- 정의:  
  샘플 데이터의 흩어짐 정도를 측정하며 다음과 같이 정의됩니다.
  \[
  S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2
  \]
  여기서 \(n-1\)은 자유도를 나타냅니다.
- 분포:  
  샘플 분산은 다음과 같은 성질을 가집니다:
  \[
  (n-1) \frac{S^2}{\sigma^2} \sim \chi^2_{n-1}
  \]
  이는 자유도가 \(n-1\)인 카이제곱 분포를 따릅니다.

2) Theorem 및 Corollary
(1) Theorem 1:  
샘플 평균 \(\bar{X}\)는 \(N\left(\mu, \frac{\sigma^2}{n}\right)\)를 따릅니다.

(2) Theorem 2:  
샘플 분산 \(S^2\)는 \((n-1)S^2 / \sigma^2 \sim \chi^2_{n-1}\)를 만족합니다.

(3) Corollary (T-분포):  
샘플 평균과 분산을 결합하여 \(T\)-분포를 정의할 수 있습니다:
\[
T = \frac{\bar{X} - \mu}{S / \sqrt{n}} \sim t_{n-1}.
\]

2. 증명
1) 샘플 평균 \(\bar{X}\)의 분포 증명
(1) 문제의 설정:  
   \(X_1, X_2, \dots, X_n\)이 독립적으로 \(N(\mu, \sigma^2)\)를 따를 때, 샘플 평균 \(\bar{X}\)의 분포를 구하라.

(2) 정리 과정:  
   \[\bar{X} = \frac{1}{n} \sum_{i=1}^n X_i\]
   는 \(X_i\)들의 선형 결합입니다. 정규 분포의 선형 결합 성질에 의해 \(\bar{X}\)도 정규 분포를 따릅니다.

(3) 기대값 계산:  
   \[E(\bar{X}) = E\left(\frac{1}{n} \sum_{i=1}^n X_i\right) = \frac{1}{n} \sum_{i=1}^n E(X_i) = \frac{1}{n} (n\mu) = \mu.\]

(4) 분산 계산:  
   \[
   \text{Var}(\bar{X}) = \text{Var}\left(\frac{1}{n} \sum_{i=1}^n X_i\right) = \frac{1}{n^2} \sum_{i=1}^n \text{Var}(X_i) = \frac{1}{n^2} (n\sigma^2) = \frac{\sigma^2}{n}.
   \]

(5) 결론:  
   따라서 \(\bar{X}\)는 정규 분포를 따르고:
   \[\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right).\]

2) 샘플 분산 \(S^2\)의 분포 증명
(1) 문제의 설정:  
   샘플 분산 \(S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \bar{X})^2\)의 분포를 구하라.

(2) 자유도가 \(n-1\)인 이유:  
   샘플 평균 \(\bar{X}\)는 이미 \(X_1, X_2, \dots, X_n\)에서 계산된 값입니다. 따라서 \(n\)개의 데이터 중 1개는 나머지 데이터에 의해 결정됩니다.  
   - 즉, 샘플 데이터는 \((n-1)\)개의 독립적인 정보를 제공합니다.  
   - 이로 인해 \(S^2\)의 분포는 자유도가 \(n-1\)인 분포를 따릅니다.

(3) 분산 계산 과정:  
   \(X_i\)가 정규 분포를 따르므로, 편차 \((X_i - \mu)\)의 제곱합은 카이제곱 분포를 따릅니다:
   \[\sum_{i=1}^n \left(\frac{X_i - \mu}{\sigma}\right)^2 \sim \chi^2_n.\]

(4) 샘플 평균을 고려한 편차의 분리:  
   \[\sum_{i=1}^n (X_i - \mu)^2 = \sum_{i=1}^n (X_i - \bar{X})^2 + n(\bar{X} - \mu)^2.\]
   위 식에서:
   - \(\sum_{i=1}^n (X_i - \bar{X})^2\)는 \(n-1\) 자유도를 가진 \(\chi^2\) 분포를 따릅니다.
   - \(n(\bar{X} - \mu)^2\)는 1 자유도를 가진 \(\chi^2\) 분포를 따릅니다.

(5) 결론:  
   \((n-1)S^2 / \sigma^2\)는 \(n-1\) 자유도를 가지는 \(\chi^2\) 분포를 따릅니다:
   \[(n-1) \frac{S^2}{\sigma^2} \sim \chi^2_{n-1}.\]

3) \(T\)-분포 증명
(1) 문제의 설정:  
   \(T = \frac{\bar{X} - \mu}{S / \sqrt{n}}\)가 \(t_{n-1}\) 분포를 따름을 보이시오.

(2) 정리 과정:  
   - \(\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)\).  
   - \((n-1)S^2 / \sigma^2 \sim \chi^2_{n-1}\), 그리고 \(\bar{X}\)와 \(S^2\)는 독립.

(3) 스텝별 계산:
   - \(\frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sim N(0, 1)\).  
   - \(\sqrt{\frac{(n-1)S^2}{\sigma^2}} / \sqrt{n-1} \sim \chi^2_{n-1}\)의 제곱근.  

(4) 결론:  
   두 변수의 독립성과 \(T\)-분포 정의에 의해:
   \[T = \frac{\bar{X} - \mu}{S / \sqrt{n}} \sim t_{n-1}.\]

2. 예제
1) 문제
1. 모집단 \(N(50, 16)\)에서 \(n=25\)를 추출했다. 샘플 평균의 분포와 샘플 분산의 분포를 구하라.
2. \(P(\bar{X} > 52)\)와 \(P(S^2 > 20)\)를 계산하라.
3. \(T = \frac{\bar{X} - \mu}{S / \sqrt{n}}\)에서 자유도 \(n-1=24\)일 때, \(P(T > 2.064)\)를 계산하라.

2) 답
1. \(\bar{X} \sim N(50, 16/25) = N(50, 0.64)\), \((n-1)S^2 / \sigma^2 \sim \chi^2_{24}\).
2. 
   - \(P(\bar{X} > 52) = P(Z > \frac{52 - 50}{\sqrt{0.64}}) = P(Z > 2.5) \approx 0.0062\).
   - \(P(S^2 > 20) = P\left(\chi^2_{24} > \frac{24 \cdot 20}{16}\right) = P(\chi^2_{24} > 30) \approx 0.112\).
3. \(P(T > 2.064) = 0.025\).

3. 연습문제
1) 문제
1. 모집단 \(N(100, 25)\)에서 \(n=10\)을 추출했다. 샘플 평균과 샘플 분산의 분포를 정의하라.
2. \(P(\bar{X} > 105)\)와 \(P(S^2 > 30)\)를 계산하라.
3. 샘플 크기 \(n=15\)에서 샘플 평균과 분산을 결합하여 \(P(T < -1.761)\)을 계산하라 (\(T \sim t_{n-1}\)).

2) 답
1. \(\bar{X} \sim N(100, 25/10) = N(100, 2.5)\), \((n-1)S^2 / \sigma^2 \sim \chi^2_9\).
2. 
   - \(P(\bar{X} > 105) = P(Z > \frac{105 - 100}{\sqrt{2.5}}) = P(Z > 3.16) \approx 0.0008\).
   - \(P(S^2 > 30) = P\left(\chi^2_{9} > \frac{9 \cdot 30}{25}\right) = P(\chi^2_{9} > 10.8) \approx 0.290\).
3. \(P(T < -1.761) = 0.05\) (자유도 \(n-1=14\)).

# R code
# 1. 샘플 평균 확률 계산
mu <- 50; sigma <- 4; n <- 25
z <- (52 - mu) / (sigma / sqrt(n))
pnorm(z, lower.tail = FALSE) # P(X̄ > 52)

# 2. Chi-squared 분포
pchisq(30, df = 24, lower.tail = FALSE) # P(S^2 > 20)

# 3. T-분포 확률
pt(2.064, df = 24, lower.tail = FALSE) # P(T > 2.064)
# Python code
from scipy.stats import norm, chi2, t

# 1. 샘플 평균 확률 계산
mu, sigma, n = 50, 4, 25
z = (52 - mu) / (sigma / (n**0.5))
prob_mean = 1 - norm.cdf(z)
print("P(X̄ > 52):", prob_mean)

# 2. Chi-squared 분포
prob_var = 1 - chi2.cdf(30, df=24)
print("P(S^2 > 20):", prob_var)

# 3. T-분포 확률
prob_t = 1 - t.cdf(2.064, df=24)
print("P(T > 2.064):", prob_t)

통계적 추론에서 분포 선택: 4x4 매트릭스와 연습문제
1. 4x4 매트릭스: 분포 선택 기준

조건 모평균을 앎 모평균을 모름
모분산을 앎  Z-분포 사용 Z-분포 사용  
모분산을 모름 (표본분산 사용) Z-분포 (표본 크기 큼) t-분포 사용


2. 분포 선택에 대한 설명
1) 모평균과 모분산을 앎: Z-분포 사용
- 조건: 
  - 모평균(\(\mu\))과 모분산(\(\sigma^2\))이 알려져 있음.
- 사용 분포: Z-분포 (\(N(0, 1)\)).
- 공식: 
  \[Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}\]
- 적용 예시: 모집단의 특성이 명확히 알려져 있을 때.

2) 모평균을 모르고, 모분산을 앎: Z-분포 사용
- 조건: 
  - 모평균은 모르지만, 모분산(\(\sigma^2\))은 알고 있음.
- 사용 분포: Z-분포 (\(N(0, 1)\)).
- 공식: 
  \[Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}\]
  (\(\mu_0\): 가설에서 설정한 평균)
- 적용 예시: 단일 표본 Z-검정에서 사용.

3) 모평균을 알고, 모분산을 모름: Z-분포 (근사적 사용)
- 조건: 
  - 모평균은 알고 있지만, 모분산은 모름.
  - 표본 크기 \(n > 30\)으로 충분히 큰 경우.
- 사용 분포: Z-분포를 근사적으로 사용.
- 공식: 
  \[Z \approx \frac{\bar{X} - \mu}{S / \sqrt{n}}\]
  (\(S^2\): 표본 분산)
- 적용 예시: 표본 크기가 큰 경우 모집단 분산을 모르더라도 Z-분포 사용.

4) 모평균과 모분산을 모름: t-분포 사용
- 조건: 
  - 모평균과 모분산 모두 알 수 없음.
  - 표본 평균(\(\bar{X}\))과 표본 분산(\(S^2\))만 사용할 수 있음.
- 사용 분포: t-분포 (\(t_{n-1}\)).
- 공식: 
  \[T = \frac{\bar{X} - \mu}{S / \sqrt{n}}\]
  (\(n-1\): 자유도)
- 적용 예시: 단일 표본 t-검정, 독립 표본 t-검정.

3. t-분포
t-분포란?
- t-분포는 모분산(\(\sigma^2\))을 알지 못할 때, 표본 평균(\(\bar{X}\))과 표본 분산(\(S^2\))을 이용해 추론할 때 사용하는 분포.
- 표본 크기가 작을수록 t-분포는 표준 정규분포보다 꼬리가 더 두껍다. 이는 표본 분산의 불확실성을 반영하기 때문.

t-분포의 특징
1. 정의:  
   \[T = \frac{\bar{X} - \mu}{S / \sqrt{n}}, \quad T \sim t_{n-1}\]
   - \(\bar{X}\): 표본 평균  
   - \(S\): 표본 표준편차  
   - \(n\): 표본 크기  
   - \(n-1\): 자유도  

2. 꼬리의 두꺼움:  
   - 표본 크기가 작을수록 극단적인 값이 나올 가능성을 반영하여 t-분포는 Z-분포보다 꼬리가 두꺼움.
   - 표본 크기가 커질수록 t-분포는 Z-분포에 수렴.

3. 자유도 (\(n-1\)):  
   - 표본 크기 \(n\)에서 표본 평균 계산에 1개의 자유도를 사용하므로, \(n-1\)개의 자유도만 남음.

t-분포 vs Z-분포 비교

특징         t-분포     Z-분포
사용 조건  모분산을 모를 때      모분산을 알 때    
꼬리의 두께 표본 크기가 작을수록 두꺼움 꼬리가 얇음      
표본 크기의 영향 표본 크기 \(n \to \infty\)일 때 Z에 수렴 표본 크기와 무관         


4. 연습문제
문제
1. 모집단 \(N(100, \sigma^2)\)에서 \(\sigma^2\)를 모른다고 가정합니다. \(n=10\), \(\bar{X}=102\), \(S^2=16\). 모집단 평균이 100인지 검정 (\(\alpha=0.05\)).  
2. 모집단의 분산 \(\sigma^2 = 25\)를 알고, \(n=36\), \(\bar{X}=51\). 모집단 평균이 50인지 검정 (\(\alpha=0.05\)).  
3. \(n=20\), \(\bar{X}=15\), \(S=5\). 모집단 평균이 12와 다르다는 가설을 검정 (\(\alpha=0.01\)).  


1. 문제 1 (t-분포 사용):  
   - 검정 통계량:  
     \[T = \frac{102 - 100}{\sqrt{16} / \sqrt{10}} = \frac{2}{1.2649} \approx 1.58\]  
   - \(t_{0.025, 9} = 2.262\). \(T < 2.262\), 귀무가설 기각하지 않음.

2. 문제 2 (Z-분포 사용):  
   - 검정 통계량:  
     \[Z = \frac{51 - 50}{\sqrt{25} / \sqrt{36}} = \frac{1}{0.833} \approx 1.2\]  
   - \(Z_{0.025} = 1.96\). \(Z < 1.96\), 귀무가설 기각하지 않음.

3. 문제 3 (t-분포 사용):  
   - 검정 통계량:  
     \[T = \frac{15 - 12}{5 / \sqrt{20}} = \frac{3}{1.118} \approx 2.69\]  
   - \(t_{0.005, 19} = 2.861\). \(T < 2.861\), 귀무가설 기각하지 않음.

# R code
# 문제 1
t_stat <- (102 - 100) / (sqrt(16) / sqrt(10))
t_critical <- qt(0.975, df = 9)
t_stat; t_critical

# 문제 2
z_stat <- (51 - 50) / (sqrt(25) / sqrt(36))
z_critical <- qnorm(0.975)
z_stat; z_critical

# 문제 3
t_stat <- (15 - 12) / (5 / sqrt(20))
t_critical <- qt(0.995, df = 19)
t_stat; t_critical
# Python code
from scipy.stats import t, norm
import numpy as np

# 문제 1
t_stat = (102 - 100) / (np.sqrt(16) / np.sqrt(10))
t_critical = t.ppf(0.975, df=9)
print("T-statistic:", t_stat, "Critical value:", t_critical)

# 문제 2
z_stat = (51 - 50) / (np.sqrt(25) / np.sqrt(36))
z_critical = norm.ppf(0.975)
print("Z-statistic:", z_stat, "Critical value:", z_critical)

# 문제 3
t_stat = (15 - 12) / (5 / np.sqrt(20))
t_critical = t.ppf(0.995, df=19)
print("T-statistic:", t_stat, "Critical value:", t_critical)