* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다
이론 정리
1. 최대 우도 추정량(MLE)의 정의
1) 문제 정의 및 MLE의 도출
확률 밀도 함수(PDF) \( f(x; \theta) \) 가 주어진 연속형 확률 분포를 고려한다. 여기서, 모수 \( \theta \) 는 분포의 정의역(support)에는 영향을 주지 않는다고 가정한다. 즉, \( \theta \) 가 확률 변수 \( X \) 의 가능한 값들의 범위를 변경하지 않는다.
MLE \( \hat{\theta} \) 는 우도 함수 \( L(\theta) \) 를 최대화하는 값이다. 따라서, 로그 우도 함수의 1차 도함수(점수 함수, Score Function) 를 사용하여 다음 조건을 만족하는 \( \hat{\theta} \) 를 찾는다.
\[
\frac{\partial}{\partial \theta} \ln L(\hat{\theta}) = 0
\]
우리는 \( \hat{\theta} \) 가 진짜 모수 \( \theta \) 근처에서만 약간 변동하는 값 이라고 가정하고, 테일러 급수를 이용하여 근사한다.
테일러 전개를 사용하여 \( \theta \) 근처에서 로그 우도 함수의 1차 도함수를 전개하면,
\[
\frac{\partial}{\partial \theta} \ln L(\hat{\theta}) = \frac{\partial}{\partial \theta} \ln L(\theta) + (\hat{\theta} - \theta) \cdot \frac{\partial^2}{\partial \theta^2} \ln L(\theta) + O((\hat{\theta} - \theta)^2)
\]
MLE의 조건에 의해 \( \frac{\partial}{\partial \theta} \ln L(\hat{\theta}) = 0 \) 이므로,
\[
0 = \frac{\partial}{\partial \theta} \ln L(\theta) + (\hat{\theta} - \theta) \cdot \frac{\partial^2}{\partial \theta^2} \ln L(\theta) + O((\hat{\theta} - \theta)^2)
\]
위 식에서 2차 이상의 항은 무시할 정도로 작은 값이라고 가정하면,
\[
(\hat{\theta} - \theta) \approx - \frac{\frac{\partial}{\partial \theta} \ln L(\theta)}{\frac{\partial^2}{\partial \theta^2} \ln L(\theta)}
\]
이를 식 (6.6-1) 이라고 하자.
\[
\hat{\theta} - \theta = \frac{\frac{\partial}{\partial \theta} \ln L(\theta)}{-\frac{\partial^2}{\partial \theta^2} \ln L(\theta)}
\]
3) 점수 함수의 평균과 분산
로그 우도 함수의 1차 도함수를 점수 함수(Score Function)라 하며, 이는 개별 확률 밀도 함수의 미분들의 합으로 표현된다.
\[
\frac{\partial}{\partial \theta} \ln L(\theta) = \sum_{i=1}^{n} \frac{\partial}{\partial \theta} \ln f(X_i; \theta)
\]
즉, 각 데이터에 대한 개별 점수 함수 값들이 더해진 형태이며, 이를
\[
Y_i = \frac{\partial}{\partial \theta} \ln f(X_i; \theta)
\]
라고 정의한다.
중심극한정리(CLT)에 의해, \( Y_1, Y_2, \dots, Y_n \) 은 독립이고 동일한 분포를 가지므로, 그 합은 정규 분포를 근사적으로 따른다.
! 왜 중심극한정리(CLT)를 적용하는가
우리는 MLE가 점근적으로 정규 분포를 따름을 보이려 한다.
이를 위해 점수 함수 \( S_n(\theta) \) 의 분포를 분석해야 하는데,
여기서 중심극한정리(CLT, Central Limit Theorem) 를 적용하는 것이 중요한 이유는 다음과 같다.
1) 점수 함수의 합 \( S_n(\theta) \) 의 분포
점수 함수 \( S_n(\theta) \) 는 \( Y_i \) 들의 합이므로, \( S_n(\theta) \) 의 분포를 알 수 있으면 MLE의 성질을 유도할 수 있다.
그러나, 개별 \( Y_i \) 의 분포가 어떤 정규 분포인지 보장되지 않는다.
하지만 중심극한정리에 따르면, \( n \) 이 충분히 크면 독립적인 확률 변수들의 합은 정규 분포에 수렴 한다.
즉,
\[
S_n(\theta) = \sum_{i=1}^{n} Y_i
\]
는 중심극한정리에 의해 정규 분포를 근사적으로 따르게 된다.
\[
S_n(\theta) \approx N(0, n I(\theta))
\]
따라서, 점수 함수의 합이 정규 분포를 따른다면, 이를 이용하여 MLE의 점근 분포를 구할 수 있다.
(1) 기대값 계산
각 \( Y_i \) 의 기대값은 다음과 같다.
\[
E[Y] = \int_{-\infty}^{\infty} \frac{\partial}{\partial \theta} \ln f(x; \theta) f(x; \theta) dx
\]
이를 확률 밀도 함수의 미분 형태로 다시 표현하면,
\[
E[Y] = \int_{-\infty}^{\infty} \frac{\frac{\partial}{\partial \theta} f(x; \theta)}{f(x; \theta)} f(x; \theta) dx
\]
즉,
\[
E[Y] = \int_{-\infty}^{\infty} \frac{\partial}{\partial \theta} f(x; \theta) dx
\]
이제, 적분과 미분의 순서를 바꾸면,
\[
E[Y] = \frac{\partial}{\partial \theta} \int_{-\infty}^{\infty} f(x; \theta) dx
\]
확률 밀도 함수의 적분값이 1이므로,
\[
E[Y] = \frac{\partial}{\partial \theta} 1 = 0
\]
따라서, 점수 함수의 기대값은 0이다.
(2) 분산 계산
위의 기대값에 대해 양변을 \( \theta \) 에 대해 미분하면,
\[
\int_{-\infty}^{\infty} \left( \frac{\partial^2}{\partial \theta^2} \ln f(x; \theta) f(x; \theta) + \frac{\partial}{\partial \theta} \ln f(x; \theta) \frac{\partial}{\partial \theta} f(x; \theta) \right) dx = 0
\]
여기서,
\[
\frac{\partial}{\partial \theta} f(x; \theta) = \frac{\partial}{\partial \theta} \ln f(x; \theta) f(x; \theta)
\]
을 대입하면,
\[
\int_{-\infty}^{\infty} \left( \frac{\partial}{\partial \theta} \ln f(x; \theta) \right)^2 f(x; \theta) dx = -\int_{-\infty}^{\infty} \frac{\partial^2}{\partial \theta^2} \ln f(x; \theta) f(x; \theta) dx
\]
즉, \( Y = \frac{\partial}{\partial \theta} \ln f(X; \theta) \) 의 분산은 다음과 같이 주어진다.
\[
\text{Var}(Y) = -E \left[ \frac{\partial^2}{\partial \theta^2} \ln f(X; \theta) \right]
\]
따라서, 점수 함수들의 합의 분산은,
\[
\text{Var} \left( \sum_{i=1}^{n} Y_i \right) = n \cdot \text{Var}(Y)
\]
이 된다.
4) 점근 정규성 도출
MLE가 점근적으로 정규 분포를 따름을 보이기 위해, 먼저 로그 우도 함수의 1차 도함수를 다시 적어보자.
\[
\frac{\partial}{\partial \theta} \ln L(\theta) = \sum_{i=1}^{n} \frac{\partial}{\partial \theta} \ln f(X_i; \theta)
\]
여기서, 개별 확률 변수 \( X_i \) 들은 독립적이므로, 중심극한정리(CLT)에 의해 위 식은 정규 분포로 근사할 수 있다.
중심극한정리에 따르면,
\[
\sum_{i=1}^{n} \frac{\partial}{\partial \theta} \ln f(X_i; \theta)
\]
는 평균이 0이고, 분산이 \( n I(\theta) \) 인 정규 분포를 따르게 된다.
즉,
\[
\sum_{i=1}^{n} \frac{\partial}{\partial \theta} \ln f(X_i; \theta) \approx N\left( 0, n I(\theta) \right)
\]
따라서,
\[
\frac{\sum_{i=1}^{n} \frac{\partial}{\partial \theta} \ln f(X_i; \theta)}{\sqrt{n I(\theta)}}
\]
는 근사적으로 \( N(0,1) \) 을 따른다.
다시 식 (6.6-1) 을 사용하면,
\[
\hat{\theta} - \theta = \frac{\sum_{i=1}^{n} \frac{\partial}{\partial \theta} \ln f(X_i; \theta)}{-\sum_{i=1}^{n} \frac{\partial^2}{\partial \theta^2} \ln f(X_i; \theta)}
\]
이를 다시 정리하면,
\[
\sqrt{n} (\hat{\theta} - \theta) = \frac{\sum_{i=1}^{n} \frac{\partial}{\partial \theta} \ln f(X_i; \theta)}{\sqrt{n} \cdot \left( -\frac{1}{n} \sum_{i=1}^{n} \frac{\partial^2}{\partial \theta^2} \ln f(X_i; \theta) \right)}
\]
위 식에서 분모 부분을 보면, 강한 대수의 법칙에 의해,
\[
\frac{1}{n} \sum_{i=1}^{n} \frac{\partial^2}{\partial \theta^2} \ln f(X_i; \theta) \to E\left[ \frac{\partial^2}{\partial \theta^2} \ln f(X; \theta) \right]
\]
즉,
\[
-\frac{1}{n} \sum_{i=1}^{n} \frac{\partial^2}{\partial \theta^2} \ln f(X_i; \theta) \to -E\left[ \frac{\partial^2}{\partial \theta^2} \ln f(X; \theta) \right] = I(\theta)
\]
이를 이용하여, 위 식은 다음과 같이 근사할 수 있다.
\[
\sqrt{n} (\hat{\theta} - \theta) \approx \frac{\sum_{i=1}^{n} \frac{\partial}{\partial \theta} \ln f(X_i; \theta)}{\sqrt{n I(\theta)}}
\]
여기서 우변의 분자는 중심극한정리에 의해 \( N(0, I(\theta)) \) 을 따르므로,
\[
\frac{\sum_{i=1}^{n} \frac{\partial}{\partial \theta} \ln f(X_i; \theta)}{\sqrt{n I(\theta)}} \sim N(0,1)
\]
따라서,
\[
\sqrt{n} (\hat{\theta} - \theta) \sim N\left( 0, \frac{1}{I(\theta)} \right)
\]
이를 다시 정리하면,
\[
\sqrt{n} (\hat{\theta} - \theta) \sim N \left( 0, \frac{1}{-n \mathbb{E} \left[ \frac{\partial^2}{\partial \theta^2} \ln f(X; \theta) \right]} \right)
\]
즉, MLE는 점근적으로 정규 분포를 따르며, 평균이 \( \theta \), 분산이 \( \frac{1}{n I(\theta)} \) 인 정규 분포 가 된다.
5. 예제: 지수 분포
지수 분포의 확률 밀도 함수:
\[
f(x; \theta) = \frac{1}{\theta} e^{-x/\theta}, \quad x > 0
\]
로그 우도 함수:
\[
\ln f(x; \theta) = -\ln \theta - \frac{x}{\theta}
\]
1차 도함수:
\[
\frac{\partial}{\partial \theta} \ln f(x; \theta) = -\frac{1}{\theta} + \frac{x}{\theta^2}
\]
2차 도함수:
\[
\frac{\partial^2}{\partial \theta^2} \ln f(x; \theta) = \frac{1}{\theta^2} - \frac{2x}{\theta^3}
\]
기대값을 계산하면,
\[
E \left[ \frac{\partial^2}{\partial \theta^2} \ln f(X; \theta) \right] = -\frac{1}{\theta^2}
\]
따라서, MLE의 분포는,
\[
\sqrt{n} (\hat{\theta} - \theta) \sim N(0, \theta^2)
\]
이고, 신뢰구간은 \( x \pm 1.96 x / \sqrt{n} \) 로 근사된다.
Rao-Cramér Lower Bound 증명 및 응용
1. Rao-Cramér Lower Bound 정의
Rao-Cramér Lower Bound (RCLB)는 모든 불편 추정량(unbiased estimator) 의 분산이 특정한 하한을 초과할 수 없음을 보장하는 중요한 정리이다. 즉, 어떤 불편 추정량이라도 그 분산은 Rao-Cramér Lower Bound보다 작아질 수 없다.
수학적으로, 모집단에서 독립적으로 추출된 표본 \( X_1, X_2, \dots, X_n \) 이 주어졌을 때, 어떤 불편 추정량 \( Y = u(X_1, X_2, \dots, X_n) \) 에 대해 다음이 성립한다.
\[
\text{Var}(Y) \geq \frac{1}{n I(\theta)}
\]
여기서 \( I(\theta) \) 는 피셔 정보량(Fisher Information) 으로 정의된다.
\[
I(\theta) = -E \left[ \frac{\partial^2}{\partial \theta^2} \ln f(X; \theta) \right]
\]
이 부등식은 추정량의 분산이 피셔 정보량의 역수보다 작을 수 없음을 의미하며, 이는 불편 추정량의 최적 분산을 보장하는 하한(bound) 이 된다.
2. Rao-Cramér Lower Bound 증명
1) 불편 추정량의 기대값 조건
불편 추정량 \( Y \) 는 \( \theta \) 에 대한 함수이며, 다음 조건을 만족해야 한다.
\[
E[Y] = \theta
\]
이제, 양변을 \( \theta \) 에 대해 미분하면,
\[
\frac{\partial}{\partial \theta} E[Y] = \frac{\partial}{\partial \theta} \theta = 1
\]
기대값과 미분 연산의 교환이 가능하다고 가정하면,
\[
E \left[ \frac{\partial}{\partial \theta} Y \right] = 1
\]
이제, 두 확률 변수 \( Y \) 와 점수 함수 \( S(X; \theta) = \frac{\partial}{\partial \theta} \ln f(X; \theta) \) 에 대해 코시-슈바르츠 부등식(Cauchy-Schwarz Inequality) 을 적용한다.
2) 코시-슈바르츠 부등식 적용
확률 변수 \( Y \) 와 점수 함수 \( S(X; \theta) \) 에 대해,
\[
\text{Var}(Y) \cdot \text{Var}(S) \geq \left( E[Y S] \right)^2
\]
여기서, \( S(X; \theta) \) 의 기대값이 0이라는 사실을 이용하면,
\[
E[S] = E \left[ \frac{\partial}{\partial \theta} \ln f(X; \theta) \right] = 0
\]
따라서,
\[
\text{Var}(S) = E[S^2]
\]
이고,
\[
E[Y S] = E \left[ Y \frac{\partial}{\partial \theta} \ln f(X; \theta) \right]
\]
이제, 위 식을 정리하면,
\[
\text{Var}(Y) \geq \frac{1}{E[S^2]}
\]
즉,
\[
\text{Var}(Y) \geq \frac{1}{n I(\theta)}
\]
이 부등식이 바로 Rao-Cramér Lower Bound이다.
3. MLE의 점근적 최소 분산 성질
MLE가 중심극한정리에 의해 점근적으로 정규 분포를 따름을 보였으므로, MLE는 점근적으로 최소 분산 불편 추정량(MVUE, Minimum Variance Unbiased Estimator) 과 동일한 성질을 갖는다.
MLE의 분산이 정확히 Rao-Cramér Lower Bound와 일치하면, MLE가 MVUE가 됨을 의미한다.
즉,
\[
\text{Var}(\hat{\theta}) = \frac{1}{n I(\theta)}
\]
이면, MLE는 최소 분산 불편 추정량(MVUE) 가 된다.
4. 예제 및 응용
1) 지수 분포에서의 예제
- 지수 분포의 확률 밀도 함수:
\[
f(x; \theta) = \frac{1}{\theta} e^{-x/\theta}, \quad x > 0
\]
- MLE는 \( \hat{\theta} = \bar{X} \) 이며, 점근 분포는
\[
\sqrt{n} (\hat{\theta} - \theta) \sim N(0, \theta^2)
\]
- 피셔 정보량은 다음과 같이 계산된다.
\[
I(\theta) = -E \left[ \frac{\partial^2}{\partial \theta^2} \ln f(X; \theta) \right] = \frac{1}{\theta^2}
\]
- 따라서 Rao-Cramér Lower Bound는
\[
\text{Var}(\hat{\theta}) \geq \frac{1}{n I(\theta)} = \frac{\theta^2}{n}
\]
- 실제로 MLE의 분산은 \( \frac{\theta^2}{n} \) 이므로, MLE는 MVUE이다.
2) 포아송 분포에서의 예제
- 포아송 분포의 확률 질량 함수:
\[
P(X = x) = \frac{\lambda^x e^{-\lambda}}{x!}, \quad x = 0,1,2,\dots
\]
- MLE는 \( \hat{\lambda} = \bar{X} \) 이며, 점근 분포는
\[
\sqrt{n} (\hat{\lambda} - \lambda) \sim N(0, \lambda)
\]
- 피셔 정보량:
\[
I(\lambda) = -E \left[ \frac{\partial^2}{\partial \lambda^2} \ln f(X; \lambda) \right] = \frac{1}{\lambda}
\]
- 따라서 Rao-Cramér Lower Bound는
\[
\text{Var}(\hat{\lambda}) \geq \frac{1}{n I(\lambda)} = \frac{\lambda}{n}
\]
- 실제로 MLE의 분산은 \( \frac{\lambda}{n} \) 이므로, MLE는 MVUE이다.
5. 요약
1) Rao-Cramér Lower Bound 는 모든 불편 추정량 의 분산이 특정한 하한보다 작아질 수 없음을 보장한다.
2) MLE는 점근적으로 최소 분산 불편 추정량(MVUE) 가 되며, 중심극한정리에 의해 점근적으로 정규 분포를 따른다.
3) 지수 분포 및 포아송 분포의 경우, MLE의 분산이 정확히 Rao-Cramér Lower Bound와 일치하여 MVUE임을 확인할 수 있다.
4) 즉, MLE는 점근적으로 최적의 불편 추정량이며, MVUE와 동일한 성질을 갖는다.
'통계' 카테고리의 다른 글
| 6.8 Bayesian Estimation (0) | 2025.01.03 |
|---|---|
| 6.7 Sufficient Statistics (0) | 2025.01.03 |
| 6.5 A Simple Regression Problem (1) | 2025.01.03 |
| 6.4 Maximum Likelihood Estimation (0) | 2025.01.03 |
| 6.3 Order Statistics (0) | 2025.01.03 |