* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다
1. 이론 정리
1) 비율 신뢰구간
(1) 정의(Definition)
a) 비율
(a) 어떤 모집단에서 관심 사건이 발생할 확률 또는 상대 빈도를 의미한다.
예를 들어 전체 항목이 \(n\)개이고, 그중 관심 사건이 \(x\)번 발생하면
\[
p = \frac{x}{n}
\]
으로 정의한다.
(b) 실제로 모집단 비율 \(p\)는 보통 알 수 없으므로,
표본 크기 \(n\)과 사건 횟수 \(X\)를 가지고
\[
\hat{p} = \frac{X}{n}
\]
로 추정한다.
(2) 이론(Theorem)
a) 표본비율의 근사적 정규성
(a) 표본비율 \(\hat{p}\)은 모집단 비율 \(p\)에 대해 다음과 같은 기대값과 분산을 갖는다.
\[
E(\hat{p}) = p,
\quad
\mathrm{Var}(\hat{p}) = \frac{p(1-p)}{n}
\]
(b) \(n\)이 충분히 클 때, 중심극한정리에 의해
\[
\frac{\hat{p} - p}{\sqrt{\frac{p(1-p)}{n}}}
\]
은 근사적으로 표준정규분포 \(N(0,1)\)을 따른다.
b) 비율 \(p\)에 대한 근사적 신뢰구간
(a) 유의수준을 \(\alpha\), 신뢰수준을 \(1-\alpha\)라고 할 때,
표준정규분포에서 상 \(\alpha/2\) 분위수를 \(z_{\alpha/2}\)라 하면,
\[
\hat{p} \;\pm\; z_{\alpha/2} \,\sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}
\]
이 \((1-\alpha)\) 신뢰구간의 근사적 형태로 사용된다.
(3) 보조정리(Corollary)
a) 정확 신뢰구간의 필요성
(a) 표본이 작은 경우, 예컨대 \(x\)가 매우 작거나 \(n - x\)가 매우 작다면
\(\hat{p}\)의 정규 근사가 좋지 않을 수 있다.
이때 Clopper-Pearson 신뢰구간 등의 정확한 방법을 고려할 수 있다.
(b) Wilson 간격, plus 4 방법 등 보정된 근사 방법도 존재하지만,
책에서는 위 근사 공식에 집중한다.
(4) 증명
a) 비율에 대한 정규근사 증명의 골자
(a) \(n\)번의 독립 시행 각각에서 관심 사건이 발생할 확률이 \(p\)라 하면,
사건 횟수 \(X\)는 다음과 같은 이항분포를 따른다.
\[
X \;\sim\; \mathrm{Binomial}(n,\;p),
\quad
P(X = k) \;=\; \binom{n}{k}\;p^k\,(1-p)^{\,n-k}.
\]
(b) 표본비율을
\[
\hat{p} \;=\; \frac{X}{n}
\]
이라 정의한다. 이때 \(X\)에 대한 기댓값과 분산은
\[
E(X) = n\,p,
\quad
\mathrm{Var}(X) = n\,p\,(1-p).
\]
따라서
\[
E(\hat{p}) = p,
\quad
\mathrm{Var}(\hat{p}) = \frac{p\,(1-p)}{n}.
\]
(c) 중심극한정리(Central Limit Theorem)에 따르면, \(n\)이 충분히 크면
\[
\frac{\,X - n\,p\,}{\sqrt{\,n\,p\,(1-p)\,}}
\]
는 근사적으로 표준정규분포 \(N(0,1)\)를 따른다.
(d) 이를 \(\hat{p} = X/n\) 형태로 바꾸어 쓰면,
\[
\frac{\,\hat{p} - p\,}{\sqrt{\,\frac{p\,(1-p)}{n}\,}}
\]
역시 근사적으로 \(N(0,1)\)을 따른다. 그러므로 표준정규분포 표에서 구한 \(z\)-값을 이용해
\[
\hat{p}
\;\pm\;
z_{\alpha/2}
\,\sqrt{\frac{\hat{p}\,\bigl(1 - \hat{p}\bigr)}{n}}
\]
의 형태로 \((1-\alpha)\) 근사 신뢰구간을 얻을 수 있다.
2. 예제
1) 문제
(1) 문제1: 어떤 공장에서 무작위로 n=100개 제품을 뽑았더니 x=15개가 불량으로 나왔다. 불량률 p에 대한 95퍼센트 신뢰구간을 구하시오.
(2) 문제2: 백신 접종자 n=200명 중 항체 형성자가 x=160명일 때, 예방률 p에 대한 99퍼센트 신뢰구간을 구하시오.
(3) 문제3: 한 학교에서 무작위로 학생 n=40명을 뽑았더니 12명이 특정 동아리에 속해 있었다. 이 동아리에 속할 확률 p에 대한 90퍼센트 신뢰구간을 구하시오.
2) 답안
(1) 풀이
a) 문제1
(a) 표본비율 p-hat = 15/100 = 0.15
(b) 95퍼센트 신뢰수준에서 α=0.05, z_(0.025)≈1.96
(c) 표준오차 SE = √[0.15×0.85/100] ≈ 0.0357
(d) 신뢰구간 = 0.15 ± 1.96×0.0357 ≈ (0.08, 0.22)
b) 문제2
(a) p-hat = 160/200 = 0.8
(b) 99퍼센트 신뢰수준에서 α=0.01, z_(0.005)≈2.575
(c) SE = √[0.8×0.2/200] = √[0.16/200] ≈ 0.0283
(d) 신뢰구간 = 0.8 ± 2.575×0.0283 ≈ (0.73, 0.87)
c) 문제3
(a) p-hat = 12/40 = 0.3
(b) 90퍼센트 신뢰수준에서 α=0.1, z_(0.05)≈1.645
(c) SE = √[0.3×0.7/40] ≈ 0.0725
(d) 신뢰구간 = 0.3 ± 1.645×0.0725 ≈ (0.18, 0.42)
3. 연습문제
1) 문제
(1) 문제1: 어느 회사의 제품 50개를 무작위로 뽑았더니 8개가 불량이었다. p에 대한 90퍼센트 신뢰구간을 구하시오.
(2) 문제2: 새로운 백신을 300명에게 접종했더니 243명이 면역을 획득했다. p의 95퍼센트 신뢰구간을 구하시오.
(3) 문제3: 유권자 400명 중 220명이 특정 후보를 지지했다. p의 99퍼센트 신뢰구간을 구하시오.
2) 답안
(1) 풀이
a) 문제1
(a) n=50, x=8, p-hat = 8/50 = 0.16
(b) 신뢰수준 90퍼센트, z_(0.05)≈1.645
(c) SE = √[0.16×0.84/50]
(d) 구간 = p-hat ± z×SE
b) 문제2
(a) n=300, x=243, p-hat = 243/300 = 0.81
(b) 신뢰수준 95퍼센트, z_(0.025)=1.96
(c) SE = √[0.81×0.19/300]
(d) 구간 = p-hat ± z×SE
c) 문제3
(a) n=400, x=220, p-hat = 0.55
(b) 신뢰수준 99퍼센트, z_(0.005)≈2.575
(c) SE = √[0.55×0.45/400]
(d) 구간 = p-hat ± z×SE
(2) R 코드
# 문제 1
n <- 50
x <- 8
phat <- x/n
alpha <- 0.1
z <- qnorm(1 - alpha/2)
se <- sqrt(phat*(1-phat)/n)
ci.lower <- phat - z*se
ci.upper <- phat + z*se
cat("90퍼센트 신뢰구간 (문제1):", ci.lower, ci.upper, "\n")
# 문제 2
n <- 300
x <- 243
phat <- x/n
alpha <- 0.05
z <- qnorm(1 - alpha/2)
se <- sqrt(phat*(1-phat)/n)
ci.lower <- phat - z*se
ci.upper <- phat + z*se
cat("95퍼센트 신뢰구간 (문제2):", ci.lower, ci.upper, "\n")
# 문제 3
n <- 400
x <- 220
phat <- x/n
alpha <- 0.01
z <- qnorm(1 - alpha/2)
se <- sqrt(phat*(1-phat)/n)
ci.lower <- phat - z*se
ci.upper <- phat + z*se
cat("99퍼센트 신뢰구간 (문제3):", ci.lower, ci.upper, "\n")
(3) Python 코드
# Python
import math
import mpmath as mp
# 문제 1
n = 50
x = 8
phat = x/n
alpha = 0.1
z = mp.qnorm(1 - alpha/2)
se = math.sqrt(phat*(1-phat)/n)
ci_lower = phat - z*se
ci_upper = phat + z*se
print("90퍼센트 신뢰구간 (문제1):", ci_lower, ci_upper)
# 문제 2
n = 300
x = 243
phat = x/n
alpha = 0.05
z = mp.qnorm(1 - alpha/2)
se = math.sqrt(phat*(1-phat)/n)
ci_lower = phat - z*se
ci_upper = phat + z*se
print("95퍼센트 신뢰구간 (문제2):", ci_lower, ci_upper)
# 문제 3
n = 400
x = 220
phat = x/n
alpha = 0.01
z = mp.qnorm(1 - alpha/2)
se = math.sqrt(phat*(1-phat)/n)
ci_lower = phat - z*se
ci_upper = phat + z*se
print("99퍼센트 신뢰구간 (문제3):", ci_lower, ci_upper)
\[
\textbf{비율의 정규근사 증명}
\]
1. \(\text{기본 설정}\)
- \(n\)번의 독립 시행 각각에서 관심 사건이 발생할 확률을 \(p\)라 하자.
- 관심 사건이 일어난 횟수를 나타내는 확률변수 \(X\)는 다음 이항분포를 따른다:
\[
X \sim \mathrm{Binomial}(n,\,p),
\quad
P(X = k) \;=\; \binom{n}{k}\,p^k\,(1-p)^{\,n-k},\quad k=0,1,\ldots,n.
\]
- 관심 사건의 표본비율(프로포션)을 \(\hat{p} = \frac{X}{n}\)이라 정의한다.
2. \(\text{기댓값과 분산 계산}\)
- 이항분포 \(X\)에 대해:
\[
E(X) \;=\; n\,p,
\quad
\mathrm{Var}(X) \;=\; n\,p\,(1-p).
\]
- 표본비율 \(\hat{p} = \frac{X}{n}\)의 기대값과 분산:
\[
E(\hat{p})
\;=\;
\frac{E(X)}{n}
\;=\;
p,
\]
\[
\mathrm{Var}(\hat{p})
\;=\;
\mathrm{Var}\!\bigl(\tfrac{X}{n}\bigr)
\;=\;
\frac{\mathrm{Var}(X)}{n^2}
\;=\;
\frac{p\,(1-p)}{n}.
\]
3. \(\text{중심극한정리를 이용한 변환}\)
- 중심극한정리(Central Limit Theorem, CLT)에 따라 \(n\)이 충분히 크면, 이항분포 \(X\)에 대해 다음 변환
\[
Z \;=\;
\frac{X - n\,p}{\sqrt{\,n\,p\,(1-p)\,}}
\]
이 근사적으로 표준정규분포 \(N(0,1)\)를 따른다.
4. \(\hat{p} = \tfrac{X}{n}\) 형태로 변환
- 위의 \(Z\)를 \(\hat{p}\)로 다시 쓰면,
\[
Z
\;=\;
\frac{\,X - n\,p\,}{\sqrt{\,n\,p\,(1-p)\,}}
\;=\;
\frac{\frac{X}{n} - p}{\sqrt{\tfrac{p\,(1-p)}{n}}}
\;=\;
\frac{\,\hat{p} - p\,}{\sqrt{\tfrac{p(1-p)}{n}}}.
\]
- 따라서
\[
\frac{\,\hat{p} - p\,}{\sqrt{\tfrac{p\,(1-p)}{n}}}
\quad
\overset{\text{(큰 }n\text{)}}{\approx}
\quad
N(0,1).
\]
즉, \(\hat{p}\)는 정규분포를 근사하게 된다.
5. \(\text{신뢰구간 도출}\)
- 위에서 \(\hat{p}\)가 정규근사를 가진다고 하면, 유의수준 \(\alpha\)에서
표준정규분포의 상 \(\alpha/2\) 분위수를 \(z_{\alpha/2}\)라 할 때,
\[
P\!\Bigl(\,-z_{\alpha/2} \;\le\;
\frac{\,\hat{p} - p\,}{\sqrt{\tfrac{p(1-p)}{n}}}
\;\le\;
z_{\alpha/2}\Bigr)
\;=\;
1-\alpha.
\]
- 이를 \(\hat{p}-p\)에 대해 재배열하면:
\[
-p - z_{\alpha/2}\,\sqrt{\frac{p(1-p)}{n}}
\;\le\;
\hat{p} - p
\;\le\;
z_{\alpha/2}\,\sqrt{\frac{p(1-p)}{n}}.
\]
- 실제 계산에선 \(p\)가 미지이므로, \(\hat{p}\)로 대체하여 표준오차(SE)를
\(\sqrt{\tfrac{\hat{p}(1-\hat{p})}{n}}\)로 근사한다.
- 결과적으로 근사적 (1-\(\alpha\)) 신뢰구간은
\[
\hat{p}
\;\pm\;
z_{\alpha/2}\,
\sqrt{\frac{\hat{p}\,\bigl(1-\hat{p}\bigr)}{n}}.
\]
6. \(\text{결론}\)
- 이항분포 \(X\)에서 정의한 \(\hat{p} = \tfrac{X}{n}\)는 CLT 덕분에 큰 \(n\)에서 정규근사가 가능하다.
- 이를 통해 표준정규분포의 분위수 \(z_{\alpha/2}\)를 써서 위와 같은 신뢰구간 공식을 얻는다.
- 단, \(n\)이 충분히 크지 않으면 이 근사가 부정확할 수 있으므로,
작은 표본에서는 Clopper-Pearson 등 정확 신뢰구간 기법을 고려한다.
'통계' 카테고리의 다른 글
| 7.5 Distribution-Free Confidence Intervals for Percentiles (0) | 2025.01.03 |
|---|---|
| 7.4 Sample Size (0) | 2025.01.03 |
| 7.2 Confidence Intervals for the Difference of Two Means (0) | 2025.01.03 |
| 7.1 Confidence Intervals for Means (0) | 2025.01.03 |
| 6.9 More Bayesian Concepts (0) | 2025.01.03 |