* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다
1. 이론 정리
1) 기본 개념
(1) 모평균 추정 문제
\[
\text{모평균}\ \mu \text{는 모집단 전체의 평균값이며, 이를 추정하기 위해 표본을 이용한다.}
\]
\[
\text{크기가 }n\text{인 표본 }X_1, X_2, \dots, X_n\text{에 대해 표본평균 }\bar{X}\text{는}
\quad
\bar{X} \;=\; \frac{1}{n}\sum_{i=1}^n X_i \,.
\]
(2) 신뢰구간(Confidence Interval)의 기본 아이디어
\[
\text{모수를 하나의 점이 아닌 구간 형태로 추정하는 방법으로, 구간이 참모수를 포함할 확률을 }1-\alpha\text{로 설정한다.}
\]
예: 95% 신뢰구간은 많은 반복추출에서 구한 구간 중 약 95%가 참모수를 포함한다는 의미.
2) 정의(Definition)
(1) 정의: 100(1−α)% 신뢰구간
\[
\text{모수 } \theta \text{(여기서는 } \mu \text{)를 추정하기 위해,}
\]
\[
P \bigl(L \,\le\, \theta \,\le\, U\bigr) \;=\; 1-\alpha
\]
를 만족하는 \(\bigl[L,\, U\bigr]\)를 \(\theta\)에 대한 \(100(1-\alpha)\%\) 신뢰구간이라 한다.
3) 모분산(\(\sigma^2\))이 알려져 있을 때의 신뢰구간(Theorem)
(1) 배경
\[
\text{모집단이 정규분포 }N(\mu,\sigma^2)\text{를 따르거나, }n\text{이 충분히 클 때 중심극한정리에 의해}
\bar{X} \sim \text{(근사) 정규분포.}
\]
\[
\sigma^2\text{가 알려진 상태에서, 표본평균 }\bar{X}\text{의 표준오차(standard error)는 }\frac{\sigma}{\sqrt{n}}.
\]
(2) 정리(Theorem):
\[
\mu \text{에 대한 }100(1-\alpha)\%\text{ 신뢰구간} \;=\;
\bar{X}\ \pm\ z_{\alpha/2}\,\frac{\sigma}{\sqrt{n}}.
\]
여기서 \(z_{\alpha/2}\)는 표준정규분포에서 상위 \(\alpha/2\) 꼬리확률에 대응하는 값 (예: 95% 신뢰구간 시 \(z_{0.025}\approx 1.96\)).
- 증명 개요:
1. \(\bar{X}\)의 분포: \(\bar{X} \sim N\bigl(\mu,\tfrac{\sigma^2}{n}\bigr)\).
2. 표준화: \(\displaystyle \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1).\)
3. 표준정규분포에서 \(\displaystyle P\bigl(-z_{\alpha/2}\,\le\,Z\,\le\,z_{\alpha/2}\bigr) \;=\;1-\alpha.\)
4. 이를 \(\mu\)에 대해 풀면,
\[
P\!\bigl(\bar{X}-z_{\alpha/2}\tfrac{\sigma}{\sqrt{n}} \,\le\, \mu \,\le\, \bar{X}+z_{\alpha/2}\tfrac{\sigma}{\sqrt{n}}\bigr) = 1-\alpha.
\]
4) 모분산(\(\sigma^2\))이 알려지지 않았을 때의 신뢰구간(Theorem)
(1) 배경
\[
\text{모집단이 정규분포 }N(\mu,\sigma^2)\text{를 따르며, }\sigma^2\text{는 미지.}
\]
\[
\text{표본분산 }S^2 = \frac{1}{n-1}\sum_{i=1}^n \bigl(X_i - \bar{X}\bigr)^2.
\]
\[
\text{이때 }\displaystyle \frac{\bar{X}-\mu}{S/\sqrt{n}} \text{는 자유도 }(n-1)\text{인 t분포를 따른다.}
\]
(2) 정리(Theorem):
\[
\mu \text{에 대한 }100(1-\alpha)\%\text{ 신뢰구간} \;=\;
\bar{X}\ \pm\ t_{\alpha/2,\,n-1}\,\frac{S}{\sqrt{n}},
\]
여기서 \(t_{\alpha/2,\,n-1}\)은 자유도 \(n-1\)인 t분포에서 상위 \(\alpha/2\) 꼬리확률에 대응하는 값.
- 증명 개요 (단계별):
1. \(\sigma^2\) 미지 \(\implies\) \(\sigma\) 대신 표본분산 \(S^2\) 사용.
2. \(\displaystyle \frac{\bar{X}-\mu}{S/\sqrt{n}}\)이 t분포(자유도 \(n-1\))를 따른다는 이론.
3. \(\displaystyle P\bigl(-t_{\alpha/2,\,n-1} \,\le\, \frac{\bar{X}-\mu}{S/\sqrt{n}} \,\le\, t_{\alpha/2,\,n-1}\bigr)\;=\;1-\alpha.\)
4. 이를 \(\mu\)에 대해 풀면, 위 신뢰구간이 나온다.
5) 대표본 신뢰구간(Corollary)
(1) 모분포가 정규가 아니더라도, \(n\)이 충분히 크면 중심극한정리에 의해 \(\bar{X}\)는 근사 정규분포 사용 가능.
\[
\sigma^2 \text{를 모르면 }S\text{를 이용, 큰 }n\text{이면 보통 }z\text{분포 근사로도 적합.}
\]
(2) 따라서 표본 크기가 큰 경우,
\[
\bar{X}\ \pm\ z_{\alpha/2}\,\frac{S}{\sqrt{n}}
\]
를 근사 신뢰구간으로 쓴다.
6) 신뢰구간 길이와 신뢰수준
\[
\text{일반적으로 } \alpha \text{가 작아져 }1-\alpha \text{(신뢰수준)이 커질수록, 신뢰구간 길이는 증가.}
\]
\[
\text{실제 연구나 응용 상황에 따라 적정 신뢰수준을 선택함.}
\]
2. 예제
1) 문제
(1) 문제 1
- 어떤 회사에서 생산되는 전구의 수명이 정규분포 \(N(\mu,\sigma^2)\)를 따른다고 하자.
- \(\sigma^2\)는 이미 \(100\ (\text{시간})^2\)로 알려져 있다(즉 \(\sigma=10\)).
- 전구 25개를 임의추출하여 평균수명을 측정했더니 \(\bar{X}=500\) (시간).
- 이때 모평균 \(\mu\)에 대한 95% 신뢰구간을 구하라.
(2) 문제 2
- 같은 회사의 전구 수명이 정규분포 \(N(\mu,\sigma^2)\)를 따르지만 \(\sigma^2\)는 모른다고 하자.
- 전구 16개를 추출하여 \(\bar{X}=505\), \(S^2=81\) (\(S=9\)).
- 모평균 \(\mu\)에 대해 90% 신뢰구간을 구하라.
(3) 문제 3
- 어떤 모집단에서 \(n=200\)의 표본을 얻었고, \(\bar{X}=130\), \(S^2=400\) (\(S=20\))이라 하자.
- 모분포가 정규분포가 아니지만 \(n\)이 커서 중심극한정리 가능.
- 모평균 \(\mu\)에 대한 99% 신뢰구간을 구하라(대표본 근사).
2) 답안
(1) 풀이
\[
\sigma=10,\quad n=25,\quad \bar{X}=500,\quad 95\%\text{ 신뢰수준이므로 }\alpha=0.05,\quad z_{0.025}=1.96.
\]
\[
\text{신뢰구간: } \bar{X} \pm z_{0.025}\,\frac{\sigma}{\sqrt{n}}
\;=\;
500 \pm 1.96 \times \frac{10}{5}
\;=\;
500 \pm 3.92
\;=\;
(496.08,\;503.92).
\]
(2) 풀이
\[
n=16,\quad \bar{X}=505,\quad S=9,\quad 90\%\text{ 신뢰수준이므로 }\alpha=0.1,\quad t_{0.05,\,15}\approx 1.753.
\]
\[
\bar{X} \pm t_{\alpha/2,n-1}\,\frac{S}{\sqrt{n}}
\;=\;
505 \pm 1.753\times \frac{9}{4}
\;=\;
505 \pm 3.946425
\approx
(501.05,\;508.95).
\]
(3) 풀이
\[
n=200,\quad \bar{X}=130,\quad S=20,\quad 99\%\text{ 신뢰수준이면 }\alpha=0.01,\quad z_{0.005}\approx 2.58.
\]
대표본 근사로
\[
\bar{X} \pm z_{0.005}\,\frac{S}{\sqrt{n}}
\;=\;
130 \pm 2.58 \times \frac{20}{\sqrt{200}}
\;.
\]
\(\sqrt{200}\approx 14.142\),
\(\frac{20}{14.142}\approx 1.4142,\)
\(2.58 \times 1.4142 \approx 3.65.\)
\[
\text{따라서 }(126.35,\;133.65)\text{ 정도.}
\]
3. 연습문제
1) 문제
(1) 문제 1
- 작은 표본 \((n=9)\)을 측정: 36.8, 37.0, 36.7, 37.2, 36.9, 37.1, 36.8, 37.0, 37.3 (단위: °C).
- 모평균 \(\mu\)에 대한 95% 신뢰구간을 구하라(정규분포 가정, \(\sigma^2\) 미지).
- 즉 t분포 사용.
(2) 문제 2
- 모분산 \(\sigma^2=25\) (\(\sigma=5\))가 이미 알려진 분포에서, 표본크기 \(100\)에 대해 \(\bar{X}=70\).
- 모평균 \(\mu\)에 대한 90% 신뢰구간을 구하라(즉 z분포 사용).
(3) 문제 3
- 표본크기 \(n=50\), \(\bar{X}=280\), \(S=15\).
- 모집단이 정규가 아니지만 \(n=50\)이면 어느 정도 중심극한정리 근사 가능.
- 모평균 \(\mu\)에 대한 95% 신뢰구간(대표본 근사)을 구하라.
2) 답안
(1) 풀이
- \(\bar{X}\)와 \(S^2\)를 직접 계산 후 적용:
- \(\alpha=0.05,\;t_{0.025,\,8}\approx 2.306.\)
\[
\bar{X} \pm t_{0.025,8}\,\frac{S}{\sqrt{9}}.
\]
(2) 풀이
- \(\sigma^2=25,\; \bar{X}=70,\; n=100,\;\alpha=0.1,\;z_{0.05}=1.645.\)
\[
70 \pm 1.645 \times \frac{5}{10}
= 70 \pm 0.8225
\approx (69.1775,\;70.8225).
\]
(3) 풀이
- \(\bar{X}=280,\; S=15,\; n=50,\; \alpha=0.05,\; z_{0.025}=1.96.\)
\[
280 \pm 1.96 \times \frac{15}{\sqrt{50}}
.
\]
\(\sqrt{50}\approx 7.071,\;\frac{15}{7.071}\approx 2.121,\;1.96\times 2.121\approx4.159.\)
따라서 대략 \((275.84,\;284.16)\).
R 코드 답
# R code
# 문제 1
data <- c(36.8, 37.0, 36.7, 37.2, 36.9, 37.1, 36.8, 37.0, 37.3)
n <- length(data)
xbar <- mean(data)
s <- sd(data) # R에서 표본표준편차
alpha <- 0.05
df <- n - 1
t_value <- qt(1 - alpha/2, df)
me <- t_value s / sqrt(n)
L <- xbar - me
U <- xbar + me
L; U
# 문제 2
n <- 100
xbar <- 70
sigma <- 5
alpha <- 0.10
z_value <- qnorm(1 - alpha/2)
me <- z_value sigma / sqrt(n)
L <- xbar - me
U <- xbar + me
L; U
# 문제 3
n <- 50
xbar <- 280
s <- 15
alpha <- 0.05
z_value <- qnorm(1 - alpha/2)
me <- z_value s / sqrt(n)
L <- xbar - me
U <- xbar + me
L; U
Python 코드 답
# Python code
# 1. 문제 1
import math
import statistics
import scipy.stats as st
data = [36.8, 37.0, 36.7, 37.2, 36.9, 37.1, 36.8, 37.0, 37.3]
n = len(data)
xbar = statistics.mean(data)
s = statistics.stdev(data) # 표본 표준편차
alpha = 0.05
df = n - 1
t_value = st.t.ppf(1 - alpha/2, df)
me = t_value s / math.sqrt(n)
L = xbar - me
U = xbar + me
print(L, U)
# 2. 문제 2
import math
import scipy.stats as st
n = 100
xbar = 70
sigma = 5
alpha = 0.10
z_value = st.norm.ppf(1 - alpha/2)
me = z_value sigma / math.sqrt(n)
L = xbar - me
U = xbar + me
print(L, U)
# 3. 문제 3
import math
import scipy.stats as st
n = 50
xbar = 280
s = 15
alpha = 0.05
z_value = st.norm.ppf(1 - alpha/2)
me = z_value s / math.sqrt(n)
L = xbar - me
U = xbar + me
print(L, U)
결론 요약
- 분산이 알려진 경우:
\[
\bar{X}\ \pm\ z_{\alpha/2}\,\frac{\sigma}{\sqrt{n}}.
\]
- 분산이 미지이고, 모집단이 정규분포(또는 근사적으로 정규):
\[
\bar{X}\ \pm\ t_{\alpha/2,\,n-1}\,\frac{S}{\sqrt{n}}.
\]
- 표본크기 \(n\)이 큰 경우(정규 아님): 중심극한정리로 인해
\[
\bar{X}\ \pm\ z_{\alpha/2}\,\frac{S}{\sqrt{n}}
\]
를 대표본 근사 신뢰구간으로 사용.
'통계' 카테고리의 다른 글
| 7.3 Confidence Intervals for Proportions (0) | 2025.01.03 |
|---|---|
| 7.2 Confidence Intervals for the Difference of Two Means (0) | 2025.01.03 |
| 6.9 More Bayesian Concepts (0) | 2025.01.03 |
| 6.8 Bayesian Estimation (0) | 2025.01.03 |
| 6.7 Sufficient Statistics (0) | 2025.01.03 |