* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다
이론 정리
1. 개요
1) 베이지안 추정(Bayesian Estimation)은 베이즈 정리(Bayes' Theorem)를 이용하여 모수(parameter)를 추정하는 방법이다.
2) 베이지안 추론의 핵심 개념은 사전 확률(prior probability)과 사후 확률(posterior probability)이다.
3) 베이지안 방법에서는 기존의 통계 데이터뿐만 아니라, 사전 지식(prior knowledge)도 활용하여 추정치를 계산한다.
4) 데이터가 많아질수록 사전 정보의 영향이 줄어들고, 최대우도추정(MLE, Maximum Likelihood Estimation)과 유사한 결과를 얻게 된다.
2. 베이즈 정리 (Bayes' Theorem)
베이즈 정리는 사전 확률과 우도(likelihood)를 이용하여 사후 확률을 계산하는 공식이다.
1) 베이즈 정리의 기본 수식
\[
P(\theta | x) = \frac{P(x | \theta) P(\theta)}{P(x)}
\]
- \(P(\theta | x)\): 사후 확률 (posterior probability) → 데이터를 관측한 후 모수 \(\theta\)에 대한 확률
- \(P(x | \theta)\): 우도 (likelihood) → 특정 \(\theta\)에서 데이터 \(x\)가 나올 확률
- \(P(\theta)\): 사전 확률 (prior probability) → 데이터 관측 이전의 \(\theta\)에 대한 믿음
- \(P(x)\): 증거 (evidence) → 데이터 \(x\)가 관측될 확률
2) 연속 확률 변수의 경우
연속형 확률변수에 대해 베이즈 정리는 다음과 같이 표현된다.
\[
k(\theta | x) = \frac{f(x | \theta) h(\theta)}{\int f(x | \theta) h(\theta) d\theta}
\]
- \(k(\theta | x)\): 사후 확률 밀도 함수 (posterior PDF)
- \(h(\theta)\): 사전 확률 밀도 함수 (prior PDF)
- \(f(x | \theta)\): 우도 함수 (Likelihood function)
위 식에서 분모는 정규화 상수(normalization constant)로, 사후 확률이 확률 분포가 되도록 조정하는 역할을 한다.
3. 베이지안 점 추정 (Bayesian Point Estimation)
베이지안 추정량은 특정 손실 함수(loss function)를 최소화하는 방식으로 결정된다.
1) 손실 함수에 따른 베이지안 추정량
베이지안 추정에서 가장 흔히 사용되는 두 가지 손실 함수는 다음과 같다.
(1) 제곱 오차 손실 함수 (Squared Error Loss)
\[
L(w(y), \theta) = (w(y) - \theta)^2
\]
- 제곱 오차 손실 함수를 최소화하는 베이지안 추정량은 사후 평균(posterior mean)이다.
\[
w(y) = E[\theta | y] = \int \theta k(\theta | y) d\theta
\]
- 즉, 사후 확률 분포의 평균을 베이지안 추정량으로 사용한다.
(2) 절대값 손실 함수 (Absolute Error Loss)
\[
L(w(y), \theta) = |w(y) - \theta|
\]
- 절대값 손실 함수를 최소화하는 베이지안 추정량은 사후 중위값(posterior median)이다.
\[
w(y) = \text{Median}(\theta | y)
\]
- 즉, 사후 확률 분포의 중앙값을 추정치로 사용한다.
2) 비정보적 사전 확률 (Non-Informative Prior)
- 만약 사전 확률이 일정한 상수 형태(uniform prior)라면, 베이지안 추정량은 최대우도추정량(MLE)과 일치하는 경우가 많다.
- 즉, 데이터가 충분히 많으면 사전 정보의 영향을 거의 받지 않게 된다.
4. 베이지안 구간 추정 (Bayesian Interval Estimation)
1) 신뢰 구간(confidence interval)과 유사하게, 특정 신뢰 수준 \(1-\alpha\)를 만족하는 구간을 찾는다.
2) 베이지안 신뢰 구간을 신뢰 세트(credible set) 또는 HPD(Highest Posterior Density) 구간이라고 한다.
3) 신뢰 구간을 다음과 같이 설정할 수 있다.
\[
\int_{u(y)}^{v(y)} k(\theta | y) d\theta = 1 - \alpha
\]
4) 정규 분포를 따르는 경우, 95% 신뢰 구간은 다음과 같다.
\[
\frac{y\sigma_0^2 + \theta_0 \sigma^2/n}{\sigma_0^2 + \sigma^2/n} \pm 1.96 \sqrt{\frac{(\sigma^2/n) \sigma_0^2}{\sigma_0^2 + \sigma^2/n}}
\]
5. 예제
예제 1: 단순한 베이즈 정리 적용
- 어떤 실험에서 평균이 \(\lambda = 2\) 또는 \(\lambda = 4\)인 포아송 분포에서 표본을 하나 추출한다.
- 사전 확률:
\[
P(\lambda = 2) = 0.8, \quad P(\lambda = 4) = 0.2
\]
- \(X=6\)이 관측되었을 때, 사후 확률 계산:
\[
P(\lambda = 2 | X = 6) = \frac{(0.8)(0.012)}{(0.8)(0.012) + (0.2)(0.104)} = 0.316
\]
예제 2: 베타 분포를 이용한 베이즈 추정
- 베르누이 분포를 따르는 확률 변수 \(X_1, X_2, ..., X_n\)을 고려한다.
- 사전 분포를 베타 분포 \(Beta(\alpha, \beta)\)로 설정하면 사후 분포는 다음과 같다.
\[
k(\theta | x) \propto \theta^{\sum x_i + \alpha - 1} (1 - \theta)^{n - \sum x_i + \beta - 1}
\]
즉, 사후 분포도 베타 분포를 따르게 된다.
- 사후 평균을 구하면:
\[
E[\theta | x] = \frac{\sum x_i + \alpha}{n + \alpha + \beta}
\]
이는 최대우도추정량과 사전 평균의 가중 평균 형태를 가진다.
6. 결론
1) 베이지안 추정은 사전 정보와 데이터를 결합하여 추론을 수행하는 방법이다.
2) 데이터가 많아질수록 사전 정보의 영향은 감소하며, 최대우도추정량(MLE)에 가까워진다.
3) 손실 함수의 형태에 따라 베이지안 추정량이 달라질 수 있다.
4) 베이지안 구간 추정은 사후 확률 분포를 기반으로 신뢰 구간을 결정한다.
Example 6.8-3 상세 설명 (베이즈 정리 적용 과정 포함)
Example 6.8-3에서는 정규 분포를 이용한 베이지안 추정(Bayesian Estimation with Normal Distribution)을 다루며, 특히 사전 분포(Prior Distribution)와 사후 분포(Posterior Distribution)가 모두 정규 분포를 따르는 경우를 분석한다. 이를 통해 베이지안 추정량(Bayesian Estimator)을 구하고, 신뢰 구간(Credible Interval)을 설정하는 과정까지 논의한다.
1. 문제 설정
이 예제에서는 모수 \(\theta\)의 사전 분포(Prior Distribution)가 정규 분포를 따른다고 가정한다.
- 사전 분포(Prior Distribution):
\[
\theta \sim N(\theta_0, \sigma_0^2)
\]
여기서,
- \(\theta_0\)는 사전 평균
- \(\sigma_0^2\)는 사전 분산
- 관측된 데이터 \(Y\)는 정규 분포를 따르며, 다음과 같이 주어진다.
\[
Y \sim N(\theta, \sigma^2 / n)
\]
여기서,
- \(\sigma^2\)는 모집단의 분산
- \(n\)은 표본 크기
즉, 이 문제는 모집단의 평균 \(\theta\)를 추정하는 상황이며, 주어진 사전 정보와 새로운 데이터를 이용하여 보다 정확한 추정치를 구하고자 한다.
2. 베이즈 정리를 이용한 사후 분포(Posterior Distribution) 유도 과정
베이즈 정리를 이용하면, \(\theta\)의 사후 분포는 다음과 같이 계산된다.
\[
p(\theta | Y) = \frac{p(Y | \theta) p(\theta)}{p(Y)}
\]
(1) 우도 함수(Likelihood Function) 계산
관측된 데이터 \(Y\)는 다음과 같은 정규 분포를 따른다고 가정한다.
\[
Y | \theta \sim N(\theta, \sigma^2/n)
\]
즉, \(Y\)의 확률 밀도 함수는 다음과 같다.
\[
p(Y | \theta) = \frac{1}{\sqrt{2\pi (\sigma^2/n)}} \exp \left( -\frac{(Y - \theta)^2}{2 (\sigma^2/n)} \right)
\]
이는 \(\theta\)에 대한 우도 함수(Likelihood Function) 역할을 한다.
(2) 사전 확률(Prior Distribution) 적용
사전 정보로 주어진 \(\theta\)의 확률 분포는 정규 분포를 따른다.
\[
p(\theta) = \frac{1}{\sqrt{2\pi \sigma_0^2}} \exp \left( -\frac{(\theta - \theta_0)^2}{2\sigma_0^2} \right)
\]
(3) 베이즈 정리 적용
사후 분포는 다음과 같이 계산된다.
\[
p(\theta | Y) \propto p(Y | \theta) p(\theta)
\]
위에서 정의한 \(p(Y | \theta)\)와 \(p(\theta)\)를 곱하면,
\[
p(\theta | Y) \propto \exp \left( -\frac{(Y - \theta)^2}{2 (\sigma^2/n)} \right) \times \exp \left( -\frac{(\theta - \theta_0)^2}{2\sigma_0^2} \right)
\]
이를 하나의 지수 함수 형태로 정리하면,
\[
p(\theta | Y) \propto \exp \left( -\frac{1}{2} \left[ \frac{(Y - \theta)^2}{\sigma^2/n} + \frac{(\theta - \theta_0)^2}{\sigma_0^2} \right] \right)
\]
(4) 사후 분포의 평균 및 분산 계산
위 식을 다시 정리하여 정규 분포의 형식을 맞추면,
\[
p(\theta | Y) \sim N \left( \frac{Y\sigma_0^2 + \theta_0\sigma^2/n}{\sigma_0^2 + \sigma^2/n}, \frac{(\sigma^2/n) \sigma_0^2}{\sigma_0^2 + \sigma^2/n} \right)
\]
즉, 사후 분포 역시 정규 분포를 따르게 되며, 이는 사전 분포가 정규 분포일 때 성립하는 켤레 사전 분포(Conjugate Prior)의 특징이다.
(1) 사후 평균(Posterior Mean)
사후 분포의 평균은 다음과 같다.
\[
\hat{\theta} = \frac{Y\sigma_0^2 + \theta_0\sigma^2/n}{\sigma_0^2 + \sigma^2/n}
\]
이는 최대우도추정량(MLE)과 사전 평균 \(\theta_0\)의 가중 평균(Weighted Average) 형태를 가진다.
즉, 사전 정보 \(\theta_0\)와 관측 데이터 \(Y\)가 결합된 형태로 추정치가 결정된다.
(2) 사후 분산(Posterior Variance)
사후 분포의 분산은 다음과 같다.
\[
\sigma_{\text{posterior}}^2 = \frac{(\sigma^2/n) \sigma_0^2}{\sigma_0^2 + \sigma^2/n}
\]
이는 데이터가 많아질수록 (\(n\)이 증가할수록) 줄어들며, 결과적으로 사후 평균이 MLE와 가까워지는 경향을 보인다.
3. 신뢰 구간 (Credible Interval) 설정
베이지안 방법에서는 신뢰 구간 대신 신뢰 세트(Credible Set) 또는 HPD(Highest Posterior Density) 구간을 사용한다.
- 신뢰 수준 \(1-\alpha\)에 대해, 사후 확률이 \((1 - \alpha)\)가 되는 구간을 찾는다.
\[
P(u(Y) \leq \theta \leq v(Y)) = 1 - \alpha
\]
- 정규 분포의 성질을 이용하여 95% 신뢰 구간은 다음과 같이 주어진다.
\[
\frac{Y\sigma_0^2 + \theta_0\sigma^2/n}{\sigma_0^2 + \sigma^2/n} \pm 1.96 \sqrt{\frac{(\sigma^2/n) \sigma_0^2}{\sigma_0^2 + \sigma^2/n}}
\]
이 구간은 사후 확률이 95%를 가지는 신뢰 구간으로, 베이지안 방식에서는 사후 분포에 기반하여 직접적인 확률적 해석이 가능하다는 장점이 있다.
4. 결론
1) 사전 분포와 사후 분포가 모두 정규 분포를 따르는 경우, 사후 평균은 MLE와 사전 평균의 가중 평균이다.
2) 표본 크기 \(n\)이 증가할수록, 사전 정보의 영향이 줄어들며, 사후 평균이 MLE와 가까워진다.
3) 베이지안 신뢰 구간(Credible Interval)은 사후 확률 분포를 기반으로 설정되며, 빈도주의 신뢰 구간과는 해석이 다르다.
4) 정규 분포를 따르는 경우, 베이지안 추정량은 계산이 용이하며, 현실적인 적용이 쉽다.
'통계' 카테고리의 다른 글
| 7.1 Confidence Intervals for Means (0) | 2025.01.03 |
|---|---|
| 6.9 More Bayesian Concepts (0) | 2025.01.03 |
| 6.7 Sufficient Statistics (0) | 2025.01.03 |
| 6.6 Asymptotic Distributions of Maximum Likelihood Estimators (0) | 2025.01.03 |
| 6.5 A Simple Regression Problem (1) | 2025.01.03 |