* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다
1. 이론 정리
1) 재표본추출 방법 (Resampling Methods)
(1) 개요
a) 재표본추출(resampling)은 컴퓨터 계산 능력이 향상됨에 따라 더욱 중요한 방법론이 됨.
b) 표본통계량이 확률분포를 가진다는 개념을 학생들에게 설명하는 데 유용하게 활용됨.
c) 특정 통계량의 근사적인 분포를 추정하는 데 사용됨.
d) 표본평균 \(X\)는 중심극한정리에 의해 정규분포를 따르므로 재표본추출이 필요하지 않음.
e) 그러나 표본분산 \(S^2\)와 같은 통계량은 기저분포에 따라 크게 변할 수 있어 재표본추출이 효과적임.
(2) 재표본추출 방법의 원리
a) 원래 표본 \(\{X_1, X_2, ..., X_n\}\)을 사용하여 경험적 분포를 생성함.
b) 각 관측값 \(x_i\)에 동일한 확률 \(1/n\)을 부여하여 경험적 분포를 형성.
c) 경험적 분포에서 복원추출(with replacement)을 통해 크기 \(n\)의 새로운 표본을 반복적으로 생성.
d) 생성된 표본에서 관심 있는 통계량(예: \(S^2\))을 계산하고, 이를 \(N\)번 반복하여 통계량의 분포를 추정함.
(3) 코시 분포 (Cauchy Distribution)
a) 정의
코시 분포는 특정한 위치 매개변수(location parameter) \(\theta\)와 척도 매개변수(scale parameter) \(\gamma\)를
가지는 확률분포임. 확률밀도함수(pdf)는 다음과 같이 정의됨.
\[
f(x; \theta, \gamma) = \frac{1}{\pi \gamma} \cdot \frac{1}{1 + \left( \frac{x - \theta}{\gamma} \right)^2}, \quad -\infty < x < \infty
\]
여기서,
- \(\theta\)는 위치 매개변수로, 분포의 중앙값(median) 역할을 함.
- \(\gamma > 0\)는 척도 매개변수로, 분포의 폭을 결정함.
b) 특징
- 평균과 분산이 존재하지 않음 (적분이 수렴하지 않음).
- 꼬리가 두꺼운(heavy-tailed) 분포로, 극단값(outlier)이 자주 발생함.
- 중심극한정리를 따르지 않으므로 표본평균이 안정적인 추정량이 아님.
c) **표본평균의 문제점**
- 정규분포에서는 표본평균이 좋은 모수 추정량이지만, 코시 분포에서는 표본평균이 극단값에 의해 심각한 영향을 받음.
- 대안으로 중앙값(median)이나 절단평균(trimmed mean)을 사용하여 모수를 추정하는 것이 적절함.
(4) 절단평균과 부트스트랩
a) 절단평균(trimmed mean)은 극단값(outlier)의 영향을 줄이기 위해 데이터의 일부를 제외한 후 평균을 계산하는 방법임.
b) 예제: 40개의 코시 분포 표본을 사용하여 37.5%의 극단값을 제거한 후 절단평균을 계산.
c) 경험적 분포에서 부트스트랩을 수행하여 절단평균의 분포를 추정함.
d) 부트스트랩 표본을 1000개 생성하여 절단평균의 분포를 구함.
e) 히스토그램과 Q-Q 플롯을 통해 절단평균이 정규분포를 따를 가능성이 높음을 확인.
(5) 신뢰구간 추정: 백분위수 방법(percentile method)
a) 부트스트랩을 이용한 신뢰구간 추정:
(i) 1000개의 절단평균 \(X_t\) 값을 생성.
(ii) 2.5번째 백분위수(\(c\))와 97.5번째 백분위수(\(d\))를 찾음.
(iii) 신뢰구간: \([c, d] = [4.58, 5.30]\).
b) 백분위수 방법은 비모수적(nonparametric) 접근법으로, 기본적인 확률분포를 가정하지 않고 신뢰구간을 계산할 수 있음.
c) 부트스트랩 신뢰구간이 이론적인 순서통계량(order statistics) 기반 신뢰구간과 비교하여 더 대칭적이며 짧은 길이를 가짐.
2) T 통계량과 그 성질
(1) T 통계량의 정의
a) T 통계량은 정규분포를 따르는 모집단에서 표본 평균 \(X\)의 표준화된 형태임.
b) 모집단의 분산이 알려지지 않은 경우, 모집단 분산 대신 표본의 표준편차 \(S\)를 사용하여 표준화함.
c) 일반적인 T 통계량의 정의:
\[
T = \frac{X - \mu}{S / \sqrt{n}}
\]
d) 이는 표본평균 \(X\)가 모집단 평균 \(\mu\)에서 표준오차 단위로 얼마나 떨어져 있는지를 나타내는 값임.
e) 표본 크기가 커질수록 \(S\)는 모집단의 표준편차 \(\sigma\)에 가까워지므로, \(T\) 분포는 점차 정규분포에 수렴함.
(2) T 분포의 성질
a) 모집단이 정규분포를 따르고 표본 크기가 \(n\)일 때, T 통계량은 자유도가 \(n - 1\)인 Student의 t-분포를 따름.
b) 표본 크기가 작을 경우, T 분포는 정규분포보다 꼬리가 두꺼워 극단값이 발생할 확률이 높음.
c) 표본 크기가 충분히 크면 중심극한정리에 의해 T 분포는 정규분포에 수렴함.
d) 표본 크기가 작을수록 신뢰구간은 넓어지며, 이는 표본에서 추정된 표준편차의 불확실성을 반영한 것임.
(3) T 통계량의 활용
a) 모집단 평균 \(\mu\)에 대한 신뢰구간 추정:
\[
100(1 - \alpha)\% \text{ 신뢰구간} = X \pm t_{\alpha/2, n-1} \cdot \frac{S}{\sqrt{n}}
\]
이는 모집단 평균이 해당 구간 내에 존재할 확률이 \(1 - \alpha\)임을 의미함.
b) 평균 차이에 대한 가설검정:
(i) 귀무가설 \(H_0: \mu = \mu_0\)
(ii) 대립가설 \(H_1: \mu \neq \mu_0\), \(H_1: \mu > \mu_0\), 또는 \(H_1: \mu < \mu_0\)
(iii) 유의수준 \(\alpha\)에서 검정통계량을 계산하고 임계값과 비교하여 \(H_0\) 기각 여부 결정.
c) 모집단 분산이 알려져 있지 않은 경우에도 평균 비교 분석에 사용 가능.
d) 실험 연구, 의료 통계, 경제 데이터 분석 등 다양한 응용 분야에서 활용됨.
(4) 실용적 적용
a) 복잡한 데이터에서 통계적 추론을 수행하는 데 매우 유용함.
b) 기본적인 가정(예: 정규성)이 성립하지 않는 경우에도 적용 가능.
c) 신뢰구간 추정, 가설검정, 모수 추정 등 다양한 통계 분석에 활용됨.
d) 샘플 크기가 작을 때 모집단 평균을 추론할 때 필수적인 도구로 사용됨.
'통계' 카테고리의 다른 글
| 8.2 Tests of the Equality of Two Means (0) | 2025.01.03 |
|---|---|
| 8.1 Tests About One Mean (0) | 2025.01.03 |
| 7.6 More Regression (0) | 2025.01.03 |
| 7.5 Distribution-Free Confidence Intervals for Percentiles (0) | 2025.01.03 |
| 7.4 Sample Size (0) | 2025.01.03 |