통계

7.1 Confidence Intervals for Means

VirtualJin 2025. 1. 3. 13:03

* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다

 

1. 이론 정리  
1) 기본 개념  
(1) 모평균 추정 문제  
\[
\text{모평균}\ \mu \text{는 모집단 전체의 평균값이며, 이를 추정하기 위해 표본을 이용한다.}
\]  
\[
\text{크기가 }n\text{인 표본 }X_1, X_2, \dots, X_n\text{에 대해 표본평균 }\bar{X}\text{는}
\quad
\bar{X} \;=\; \frac{1}{n}\sum_{i=1}^n X_i \,.
\]

(2) 신뢰구간(Confidence Interval)의 기본 아이디어  
\[
\text{모수를 하나의 점이 아닌 구간 형태로 추정하는 방법으로, 구간이 참모수를 포함할 확률을 }1-\alpha\text{로 설정한다.}
\]  
예: 95% 신뢰구간은 많은 반복추출에서 구한 구간 중 약 95%가 참모수를 포함한다는 의미.

2) 정의(Definition)  
(1) 정의: 100(1−α)% 신뢰구간  
\[
\text{모수 } \theta \text{(여기서는 } \mu \text{)를 추정하기 위해,}
\]  
\[
P \bigl(L \,\le\, \theta \,\le\, U\bigr) \;=\; 1-\alpha
\]  
를 만족하는 \(\bigl[L,\, U\bigr]\)를 \(\theta\)에 대한 \(100(1-\alpha)\%\) 신뢰구간이라 한다.

3) 모분산(\(\sigma^2\))이 알려져 있을 때의 신뢰구간(Theorem)  
(1) 배경  
\[
\text{모집단이 정규분포 }N(\mu,\sigma^2)\text{를 따르거나, }n\text{이 충분히 클 때 중심극한정리에 의해}
\bar{X} \sim \text{(근사) 정규분포.}
\]  
\[
\sigma^2\text{가 알려진 상태에서, 표본평균 }\bar{X}\text{의 표준오차(standard error)는 }\frac{\sigma}{\sqrt{n}}.
\]

(2) 정리(Theorem):  
\[
\mu \text{에 대한 }100(1-\alpha)\%\text{ 신뢰구간} \;=\; 
\bar{X}\ \pm\ z_{\alpha/2}\,\frac{\sigma}{\sqrt{n}}.
\]  
여기서 \(z_{\alpha/2}\)는 표준정규분포에서 상위 \(\alpha/2\) 꼬리확률에 대응하는 값 (예: 95% 신뢰구간 시 \(z_{0.025}\approx 1.96\)).

- 증명 개요:  
  1. \(\bar{X}\)의 분포: \(\bar{X} \sim N\bigl(\mu,\tfrac{\sigma^2}{n}\bigr)\).  
  2. 표준화: \(\displaystyle \frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \sim N(0,1).\)  
  3. 표준정규분포에서 \(\displaystyle P\bigl(-z_{\alpha/2}\,\le\,Z\,\le\,z_{\alpha/2}\bigr) \;=\;1-\alpha.\)  
  4. 이를 \(\mu\)에 대해 풀면,
  \[
  P\!\bigl(\bar{X}-z_{\alpha/2}\tfrac{\sigma}{\sqrt{n}} \,\le\, \mu \,\le\, \bar{X}+z_{\alpha/2}\tfrac{\sigma}{\sqrt{n}}\bigr) = 1-\alpha.
  \]

4) 모분산(\(\sigma^2\))이 알려지지 않았을 때의 신뢰구간(Theorem)  
(1) 배경  
\[
\text{모집단이 정규분포 }N(\mu,\sigma^2)\text{를 따르며, }\sigma^2\text{는 미지.}
\]  
\[
\text{표본분산 }S^2 = \frac{1}{n-1}\sum_{i=1}^n \bigl(X_i - \bar{X}\bigr)^2.
\]
\[
\text{이때 }\displaystyle \frac{\bar{X}-\mu}{S/\sqrt{n}} \text{는 자유도 }(n-1)\text{인 t분포를 따른다.}
\]

(2) 정리(Theorem):  
\[
\mu \text{에 대한 }100(1-\alpha)\%\text{ 신뢰구간} \;=\;
\bar{X}\ \pm\ t_{\alpha/2,\,n-1}\,\frac{S}{\sqrt{n}},
\]  
여기서 \(t_{\alpha/2,\,n-1}\)은 자유도 \(n-1\)인 t분포에서 상위 \(\alpha/2\) 꼬리확률에 대응하는 값.

- 증명 개요 (단계별):  
  1. \(\sigma^2\) 미지 \(\implies\) \(\sigma\) 대신 표본분산 \(S^2\) 사용.  
  2. \(\displaystyle \frac{\bar{X}-\mu}{S/\sqrt{n}}\)이 t분포(자유도 \(n-1\))를 따른다는 이론.  
  3. \(\displaystyle P\bigl(-t_{\alpha/2,\,n-1} \,\le\, \frac{\bar{X}-\mu}{S/\sqrt{n}} \,\le\, t_{\alpha/2,\,n-1}\bigr)\;=\;1-\alpha.\)  
  4. 이를 \(\mu\)에 대해 풀면, 위 신뢰구간이 나온다.

5) 대표본 신뢰구간(Corollary)  
(1) 모분포가 정규가 아니더라도, \(n\)이 충분히 크면 중심극한정리에 의해 \(\bar{X}\)는 근사 정규분포 사용 가능.  
\[
\sigma^2 \text{를 모르면 }S\text{를 이용, 큰 }n\text{이면 보통 }z\text{분포 근사로도 적합.}
\]  
(2) 따라서 표본 크기가 큰 경우,  
\[
\bar{X}\ \pm\ z_{\alpha/2}\,\frac{S}{\sqrt{n}}
\]  
를 근사 신뢰구간으로 쓴다.

6) 신뢰구간 길이와 신뢰수준  
\[
\text{일반적으로 } \alpha \text{가 작아져 }1-\alpha \text{(신뢰수준)이 커질수록, 신뢰구간 길이는 증가.}
\]  
\[
\text{실제 연구나 응용 상황에 따라 적정 신뢰수준을 선택함.}
\]

2. 예제
1) 문제

(1) 문제 1  
   - 어떤 회사에서 생산되는 전구의 수명이 정규분포 \(N(\mu,\sigma^2)\)를 따른다고 하자.  
   - \(\sigma^2\)는 이미 \(100\ (\text{시간})^2\)로 알려져 있다(즉 \(\sigma=10\)).  
   - 전구 25개를 임의추출하여 평균수명을 측정했더니 \(\bar{X}=500\) (시간).  
   - 이때 모평균 \(\mu\)에 대한 95% 신뢰구간을 구하라.

(2) 문제 2  
   - 같은 회사의 전구 수명이 정규분포 \(N(\mu,\sigma^2)\)를 따르지만 \(\sigma^2\)는 모른다고 하자.  
   - 전구 16개를 추출하여 \(\bar{X}=505\), \(S^2=81\) (\(S=9\)).  
   - 모평균 \(\mu\)에 대해 90% 신뢰구간을 구하라.

(3) 문제 3  
   - 어떤 모집단에서 \(n=200\)의 표본을 얻었고, \(\bar{X}=130\), \(S^2=400\) (\(S=20\))이라 하자.  
   - 모분포가 정규분포가 아니지만 \(n\)이 커서 중심극한정리 가능.  
   - 모평균 \(\mu\)에 대한 99% 신뢰구간을 구하라(대표본 근사).

2) 답안

(1)   풀이 
   \[
   \sigma=10,\quad n=25,\quad \bar{X}=500,\quad 95\%\text{ 신뢰수준이므로 }\alpha=0.05,\quad z_{0.025}=1.96.
   \]  
   \[
   \text{신뢰구간: } \bar{X} \pm z_{0.025}\,\frac{\sigma}{\sqrt{n}}
   \;=\;
   500 \pm 1.96 \times \frac{10}{5}
   \;=\;
   500 \pm 3.92
   \;=\;
   (496.08,\;503.92).
   \]

(2) 풀이
   \[
   n=16,\quad \bar{X}=505,\quad S=9,\quad 90\%\text{ 신뢰수준이므로 }\alpha=0.1,\quad t_{0.05,\,15}\approx 1.753.
   \]  
   \[
   \bar{X} \pm t_{\alpha/2,n-1}\,\frac{S}{\sqrt{n}}
   \;=\;
   505 \pm 1.753\times \frac{9}{4}
   \;=\;
   505 \pm 3.946425
   \approx
   (501.05,\;508.95).
   \]

(3) 풀이
   \[
   n=200,\quad \bar{X}=130,\quad S=20,\quad 99\%\text{ 신뢰수준이면 }\alpha=0.01,\quad z_{0.005}\approx 2.58.
   \]  
   대표본 근사로  
   \[
   \bar{X} \pm z_{0.005}\,\frac{S}{\sqrt{n}}
   \;=\;
   130 \pm 2.58 \times \frac{20}{\sqrt{200}}
   \;.
   \]  
   \(\sqrt{200}\approx 14.142\),  
   \(\frac{20}{14.142}\approx 1.4142,\)  
   \(2.58 \times 1.4142 \approx 3.65.\)  
   \[
   \text{따라서 }(126.35,\;133.65)\text{ 정도.}
   \]

3. 연습문제
1) 문제

(1) 문제 1  
   - 작은 표본 \((n=9)\)을 측정: 36.8, 37.0, 36.7, 37.2, 36.9, 37.1, 36.8, 37.0, 37.3 (단위: °C).  
   - 모평균 \(\mu\)에 대한 95% 신뢰구간을 구하라(정규분포 가정, \(\sigma^2\) 미지).  
   - 즉 t분포 사용.

(2) 문제 2  
   - 모분산 \(\sigma^2=25\) (\(\sigma=5\))가 이미 알려진 분포에서, 표본크기 \(100\)에 대해 \(\bar{X}=70\).  
   - 모평균 \(\mu\)에 대한 90% 신뢰구간을 구하라(즉 z분포 사용).

(3) 문제 3  
   - 표본크기 \(n=50\), \(\bar{X}=280\), \(S=15\).  
   - 모집단이 정규가 아니지만 \(n=50\)이면 어느 정도 중심극한정리 근사 가능.  
   - 모평균 \(\mu\)에 대한 95% 신뢰구간(대표본 근사)을 구하라.

2) 답안

(1) 풀이  
   - \(\bar{X}\)와 \(S^2\)를 직접 계산 후 적용:  
   - \(\alpha=0.05,\;t_{0.025,\,8}\approx 2.306.\)  
   \[
   \bar{X} \pm t_{0.025,8}\,\frac{S}{\sqrt{9}}.
   \]

(2) 풀이
   - \(\sigma^2=25,\; \bar{X}=70,\; n=100,\;\alpha=0.1,\;z_{0.05}=1.645.\)  
   \[
   70 \pm 1.645 \times \frac{5}{10}
   = 70 \pm 0.8225
   \approx (69.1775,\;70.8225).
   \]

(3) 풀이
   - \(\bar{X}=280,\; S=15,\; n=50,\; \alpha=0.05,\; z_{0.025}=1.96.\)  
   \[
   280 \pm 1.96 \times \frac{15}{\sqrt{50}}
   .
   \]  
   \(\sqrt{50}\approx 7.071,\;\frac{15}{7.071}\approx 2.121,\;1.96\times 2.121\approx4.159.\)  
   따라서 대략 \((275.84,\;284.16)\).

R 코드 답

# R code
# 문제 1
data <- c(36.8, 37.0, 36.7, 37.2, 36.9, 37.1, 36.8, 37.0, 37.3)
n <- length(data)
xbar <- mean(data)
s <- sd(data)  # R에서 표본표준편차
alpha <- 0.05
df <- n - 1
t_value <- qt(1 - alpha/2, df)
me <- t_value  s / sqrt(n)
L <- xbar - me
U <- xbar + me
L; U

# 문제 2
n <- 100
xbar <- 70
sigma <- 5
alpha <- 0.10
z_value <- qnorm(1 - alpha/2)
me <- z_value  sigma / sqrt(n)
L <- xbar - me
U <- xbar + me
L; U

# 문제 3
n <- 50
xbar <- 280
s <- 15
alpha <- 0.05
z_value <- qnorm(1 - alpha/2)
me <- z_value  s / sqrt(n)
L <- xbar - me
U <- xbar + me
L; U



Python 코드 답

# Python code
# 1. 문제 1
import math
import statistics
import scipy.stats as st

data = [36.8, 37.0, 36.7, 37.2, 36.9, 37.1, 36.8, 37.0, 37.3]
n = len(data)
xbar = statistics.mean(data)
s = statistics.stdev(data)  # 표본 표준편차
alpha = 0.05
df = n - 1
t_value = st.t.ppf(1 - alpha/2, df)
me = t_value  s / math.sqrt(n)
L = xbar - me
U = xbar + me
print(L, U)

# 2. 문제 2
import math
import scipy.stats as st

n = 100
xbar = 70
sigma = 5
alpha = 0.10
z_value = st.norm.ppf(1 - alpha/2)
me = z_value  sigma / math.sqrt(n)
L = xbar - me
U = xbar + me
print(L, U)

# 3. 문제 3
import math
import scipy.stats as st

n = 50
xbar = 280
s = 15
alpha = 0.05
z_value = st.norm.ppf(1 - alpha/2)
me = z_value  s / math.sqrt(n)
L = xbar - me
U = xbar + me
print(L, U)


결론 요약
- 분산이 알려진 경우:  
  \[
  \bar{X}\ \pm\ z_{\alpha/2}\,\frac{\sigma}{\sqrt{n}}.
  \]

- 분산이 미지이고, 모집단이 정규분포(또는 근사적으로 정규):  
  \[
  \bar{X}\ \pm\ t_{\alpha/2,\,n-1}\,\frac{S}{\sqrt{n}}.
  \]

- 표본크기 \(n\)이 큰 경우(정규 아님): 중심극한정리로 인해  
  \[
  \bar{X}\ \pm\ z_{\alpha/2}\,\frac{S}{\sqrt{n}}
  \]
  를 대표본 근사 신뢰구간으로 사용.