* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다
1. 이론정리
1) 최적 기각 영역(Best Critical Region)의 개념
(1) 정의
a) 가설검정에서 기각 영역(critical region) 이란 귀무가설 \( H_0 \) 을 기각하는 표본 공간의 부분집합을 의미함.
b) 동일한 유의수준을 유지하면서 검정력을 최대화하는 기각 영역을 최적 기각 영역이라 함.
(2) 성질
a) 최적 기각 영역은 주어진 유의수준에서 검정력을 극대화하는 영역임.
b) Neyman-Pearson 정리에 의해 단순 가설검정에서는 최적 기각 영역이 존재함.
c) 하지만 복합 가설검정에서는 최적 기각 영역이 항상 존재하는 것은 아님.
2) Neyman-Pearson 정리
(1) 정리의 개념
a) Neyman-Pearson 정리는 단순 가설검정에서 최적 기각 영역을 찾는 방법을 제공함.
b) 즉, 귀무가설 \( H_0: \theta = \theta_0 \) 과 대립가설 \( H_1: \theta = \theta_1 \) 이 주어졌을 때,
최적 기각 영역을 정의하는 기준을 제시함.
(2) 정리
a) 확률밀도함수 또는 확률질량함수가 \( f(x; \theta) \) 일 때, 우도비 검정(Likelihood Ratio Test, LRT) 을 이용하여
최적 기각 영역을 다음과 같이 정의할 수 있음.
b) 우도비(Likelihood Ratio) 조건
\[
\frac{L(\theta_1)}{L(\theta_0)} \geq k
\]
여기서,
- \( L(\theta) \) 는 주어진 표본에 대한 우도 함수(likelihood function)
- \( k \) 는 유의수준 \( \alpha \) 에 따라 결정되는 상수
c) 위 부등식을 만족하는 표본 공간의 부분집합이 최적 기각 영역이 됨.
3) Neyman-Pearson 정리의 증명
(1) 가정
a) 귀무가설: \( H_0: \theta = \theta_0 \)
b) 대립가설: \( H_1: \theta = \theta_1 \)
c) 확률밀도함수: \( f(x; \theta) \)
d) 기각 영역: \( R \)
e) 임의의 기각 영역 \( R' \) 에 대해 유의수준이 동일한 경우, \( R \) 이 최적 기각 영역이 되는 것을 증명해야 함.
(2) 증명 과정
a) 최적 기각 영역 \( R \) 에 대해, 임의의 기각 영역 \( R' \) 에 대해 유의수준이 동일하다고 가정하자.
b) 우도비를 기반으로 한 기각 영역은 다음을 만족해야 함.
\[
\frac{f(x; \theta_1)}{f(x; \theta_0)} \geq k
\]
c) 유의수준이 동일하므로,
\[
\int_{R} f(x; \theta_0) dx = \alpha = \int_{R'} f(x; \theta_0) dx
\]
d) 그러나, 대립가설이 참일 때의 검정력(즉, 기각 영역 내에서 \( f(x; \theta_1) \) 을 적분한 값)을 비교하면,
\[
\int_{R} f(x; \theta_1) dx \geq \int_{R'} f(x; \theta_1) dx
\]
e) 따라서, 주어진 유의수준 하에서 \( R \) 의 검정력이 항상 크므로, \( R \) 은 최적 기각 영역임이 증명됨.
4) 최적 기각 영역의 예시
(1) 정규분포에서 최적 기각 영역
a) 모집단이 정규분포 \( N(\mu, \sigma^2) \) 를 따를 때, 최적 기각 영역은 다음과 같음.
\[
C = \left\{ (x_1, x_2, \dots, x_n) \mid \bar{x} \geq c \right\}
\]
여기서 \( c \) 는 유의수준 \( \alpha \) 에 따라 결정됨.
b) 이는 단측 검정의 경우 가장 강력한 검정력을 가지는 기각 영역임.
(2) 포아송 분포에서 최적 기각 영역
a) 모집단이 포아송 분포 \( Poisson(\lambda) \) 를 따를 때, 우도비 검정을 사용하여 최적 기각 영역을 구할 수 있음.
b) 이 경우 기각 영역은
\[
\sum_{i=1}^{n} x_i \geq c
\]
형태를 가지며, \( c \) 는 유의수준에 따라 결정됨.
5) 최강력 균일 검정(Uniformly Most Powerful Test, UMP)
(1) 정의
a) 최강력 균일 검정(UMP Test)은 모든 대립가설에 대해 동일한 크기의 유의수준에서 가장 강력한 검정을 의미함.
b) 즉, 특정 대립가설에 대해서만 강력한 것이 아니라 모든 대립가설에 대해 가장 강력한 검정을 제공하는 기각 영역이 존재할 경우 이를 UMP 검정이라 함.
(2) 존재성
a) 단측 검정에서는 UMP 검정이 존재하는 경우가 많음.
b) 하지만 양측 검정에서는 일반적으로 UMP 검정이 존재하지 않음.
6) 최적 기각 영역과 충분 통계량
(1) 충분 통계량과 최적 기각 영역의 관계
a) 충분 통계량이 존재하면, 최적 기각 영역은 충분 통계량의 함수로 표현될 수 있음.
b) 이는 Factorization Theorem 을 통해 설명 가능함.
(2) 예제
a) 정규분포에서 평균을 검정할 때, 최적 기각 영역은 표본 평균을 기준으로 정의됨.
b) 이는 표본 평균이 충분 통계량이기 때문임.
2. 예제
1) 문제
(1) 모집단이 정규분포 \( N(\mu, 25) \) 를 따를 때, 귀무가설 \( H_0: \mu = 50 \), 대립가설 \( H_1: \mu > 50 \) 에 대한
최적 기각 영역을 구하라.
(2) 모집단이 포아송 분포 \( Poisson(\lambda) \) 를 따를 때, 귀무가설 \( H_0: \lambda = 3 \),
대립가설 \( H_1: \lambda > 3 \) 에 대한 최적 기각 영역을 구하라.
(3) 모집단이 이항 분포 \( Bin(n, p) \) 를 따를 때, 귀무가설 \( H_0: p = 0.5 \), 대립가설 \( H_1: p > 0.5 \) 에 대한
최적 기각 영역을 구하라.
2) 답안
(1) 정규분포 검정:
- 검정통계량은 다음과 같이 정의됨.
\[
Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}
\]
여기서, \( \mu_0 = 50 \), \( \sigma = 5 \), \( n = 25 \) 이므로
\[
Z = \frac{\bar{X} - 50}{5 / \sqrt{25}} = \frac{\bar{X} - 50}{1}
\]
- 유의수준 \( \alpha = 0.05 \) 일 때 임계값 \( c \):
\[
Z > z_{0.05} = 1.645
\]
- 따라서 최적 기각 영역:
\[
C = \{ \bar{X} \geq 50 + (1.645 \times 1) \} = \{ \bar{X} \geq 51.645 \}
\]
(2) 포아송 분포 검정:
- 모집단이 포아송 분포를 따를 때, 개별 데이터는
\[
X_i \sim Poisson(\lambda)
\]
를 따른다고 가정함.
- 귀무가설과 대립가설을 설정하면,
\[
H_0: \lambda = 3, \quad H_1: \lambda > 3
\]
- 우도비 검정을 수행하면,
\[
\frac{P(X = x \mid \lambda = 3)}{P(X = x \mid \lambda = \lambda_1)}
\]
이 특정 값 이하가 되는 영역이 최적 기각 영역이 됨.
- 포아송 분포의 성질을 활용하면, **최적 기각 영역은**
\[
C = \left\{ \sum_{i=1}^{n} X_i \geq c \right\}
\]
형태를 가지며, 여기서 \( c \) 는 유의수준 \( \alpha \) 에 따라 결정됨.
- 예를 들어, \( n = 10 \), \( \lambda_0 = 3 \) 이고, 유의수준 \( \alpha = 0.05 \) 인 경우,
\[
P\left( \sum X_i \geq c \mid \lambda = 3 \right) = 0.05
\]
를 만족하는 \( c \) 값을 찾으면 됨.
(3) 이항 분포 검정:
- 모집단이 이항 분포를 따를 때, 개별 데이터는
\[
X_i \sim Bin(n, p)
\]
를 따른다고 가정함.
- 귀무가설과 대립가설을 설정하면,
\[
H_0: p = 0.5, \quad H_1: p > 0.5
\]
- 우도비 검정을 수행하면, **최적 기각 영역은**
\[
C = \left\{ \sum_{i=1}^{n} X_i \geq k \right\}
\]
형태를 가짐.
- 예를 들어, \( n = 20 \), \( p_0 = 0.5 \) 이고, 유의수준 \( \alpha = 0.05 \) 인 경우,
\[
P\left( \sum X_i \geq k \mid p = 0.5 \right) = 0.05
\]
를 만족하는 \( k \) 값을 찾으면 됨.
3. 연습문제
1) 문제
(1) 모집단이 정규분포 \( N(\mu, 16) \) 를 따를 때, 귀무가설 \( H_0: \mu = 50 \), 대립가설 \( H_1: \mu > 50 \) 에 대한
최적 기각 영역을 구하라.
(2) 모집단이 포아송 분포 \( Poisson(\lambda) \) 를 따를 때, 귀무가설 \( H_0: \lambda = 4 \),
대립가설 \( H_1: \lambda > 4 \) 에 대한 최적 기각 영역을 구하라.
(3) 모집단이 이항 분포 \( Bin(n, p) \) 를 따를 때, 귀무가설 \( H_0: p = 0.4 \), 대립가설 \( H_1: p > 0.4 \) 에 대한
최적 기각 영역을 구하라.
2) 답
(1) 정규분포 검정
- 검정통계량:
\[
Z = \frac{\bar{X} - \mu_0}{\sigma / \sqrt{n}}
\]
여기서, \( \mu_0 = 50 \), \( \sigma = 4 \), \( n = 25 \) 이므로
\[
Z = \frac{\bar{X} - 50}{4 / \sqrt{25}} = \frac{\bar{X} - 50}{0.8}
\]
- 유의수준 \( \alpha = 0.05 \) 에서 임계값:
\[
Z > z_{0.05} = 1.645
\]
- 따라서 최적 기각 영역은
\[
C = \left\{ \bar{X} \geq 50 + (1.645 \times 0.8) \right\} = \left\{ \bar{X} \geq 51.316 \right\}
\]
(2) 포아송 분포 검정
- 귀무가설 \( H_0: \lambda = 4 \), 대립가설 \( H_1: \lambda > 4 \)
- 우도비 검정에 의해 최적 기각 영역은
\[
C = \left\{ \sum_{i=1}^{n} X_i \geq c \right\}
\]
- 유의수준 \( \alpha = 0.05 \) 에 따라 \( c \) 값을 결정
- 예를 들어, \( n = 10 \), \( \lambda_0 = 4 \) 인 경우,
\[
P\left( \sum X_i \geq c \mid \lambda = 4 \right) = 0.05
\]
를 만족하는 \( c \) 값을 찾으면 됨. [ 포아송 분포 최적 기각 영역 임계값: 51]
(3) 이항 분포 검정
- 귀무가설 \( H_0: p = 0.4 \), 대립가설 \( H_1: p > 0.4 \)
- 검정통계량: \( X \sim Bin(n, p) \)
- 최적 기각 영역은
\[
C = \left\{ \sum_{i=1}^{n} X_i \geq k \right\}
\]
- 유의수준 \( \alpha = 0.05 \) 에 따라 \( k \) 값을 결정
- 예를 들어, \( n = 20 \), \( p_0 = 0.4 \) 인 경우,
\[
P\left( \sum X_i \geq k \mid p = 0.4 \right) = 0.05
\]
를 만족하는 \( k \) 값을 찾으면 됨. [ 이항 분포 최적 기각 영역 임계값: 12]
# R code
# (1) 정규분포 최적 기각 영역
mu_0 <- 50
sigma <- 4
n <- 25
alpha <- 0.05
z_alpha <- qnorm(1 - alpha)
c <- mu_0 + z_alpha * (sigma / sqrt(n))
cat("정규분포 최적 기각 영역 임계값:", c, "\n")
# (2) 포아송 분포 최적 기각 영역
lambda_0 <- 4
n <- 10
alpha <- 0.05
c_poisson <- qpois(1 - alpha, lambda_0 * n)
cat("포아송 분포 최적 기각 영역 임계값:", c_poisson, "\n")
# (3) 이항 분포 최적 기각 영역
p_0 <- 0.4
n <- 20
alpha <- 0.05
c_binom <- qbinom(1 - alpha, n, p_0)
cat("이항 분포 최적 기각 영역 임계값:", c_binom, "\n")
# Python code
import scipy.stats as stats
# (1) 정규분포 최적 기각 영역
mu_0 = 50
sigma = 4
n = 25
alpha = 0.05
z_alpha = stats.norm.ppf(1 - alpha)
c = mu_0 + z_alpha * (sigma / (n ** 0.5))
print("정규분포 최적 기각 영역 임계값:", round(c, 3))
# (2) 포아송 분포 최적 기각 영역
lambda_0 = 4
n = 10
alpha = 0.05
c_poisson = stats.poisson.ppf(1 - alpha, lambda_0 * n)
print("포아송 분포 최적 기각 영역 임계값:", int(c_poisson))
# (3) 이항 분포 최적 기각 영역
p_0 = 0.4
n = 20
alpha = 0.05
c_binom = stats.binom.ppf(1 - alpha, n, p_0)
print("이항 분포 최적 기각 영역 임계값:", int(c_binom))'통계' 카테고리의 다른 글
| 9.1 Chi-Square Goodness-of-Fit Tests (0) | 2025.01.03 |
|---|---|
| 8.7 Likelihood Ratio Tests (0) | 2025.01.03 |
| 8.5 Power of a Statistical Test (0) | 2025.01.03 |
| 8.4 The Wilcoxon Tests (0) | 2025.01.03 |
| 8.3 Tests About Proportions (0) | 2025.01.03 |