* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다
이론 정리
1. 최대 우도 추정(MLE) 정의
1) 확률 변수 \( X_1, X_2, \dots, X_n \)가 특정 확률 분포를 따르며, 이 분포가 미지의 매개변수 \( \theta \)에 의존한다고 가정한다.
2) 주어진 표본 데이터를 관찰했을 때, 가장 가능성이 높은 매개변수 값을 찾는 방법을 최대 우도 추정(MLE)이라고 한다.
3) 우도 함수(likelihood function)는 표본 데이터가 특정 매개변수 값에서 발생할 확률을 나타내는 함수이며, 다음과 같이 정의된다.
\[L(\theta) = f(x_1; \theta) f(x_2; \theta) \cdots f(x_n; \theta)\]
4) 즉, 주어진 표본 데이터에서 우도 함수가 최대가 되는 \( \theta \) 값을 찾는 것이 MLE의 목적이다.
2. 우도 함수(Likelihood Function)와 로그 우도 함수(Log-Likelihood Function)
1) 우도 함수는 확률밀도함수(pdf) 또는 확률질량함수(pmf)를 이용하여 정의되며, 확률이 가장 높은 \( \theta \)를 찾기 위해 로그 우도 함수(log-likelihood function)를 사용한다.
\[\ln L(\theta) = \sum_{i=1}^{n} \ln f(x_i; \theta)\]
2) 최대화 과정: 로그 우도 함수를 미분하여 극댓값을 찾는다.
- 즉, 미분 후 최댓값을 갖는 지점에서 \( \frac{d}{d\theta} \ln L(\theta) = 0 \)을 푼다.
- 이를 통해 최대 우도 추정량 \( \hat{\theta} \)을 찾을 수 있다.
3. 최대 우도 추정 예제
(1) 지수 분포(Exponential Distribution)
- 확률밀도함수(PDF):
\[f(x; \theta) = \frac{1}{\theta} e^{-x/\theta}, \quad 0 < x < \infty\]
- 우도 함수:
\[L(\theta) = \prod_{i=1}^{n} \frac{1}{\theta} e^{-x_i/\theta} = \frac{1}{\theta^n} \exp\left(-\frac{\sum x_i}{\theta}\right)\]
- 로그 우도 함수:
\[\ln L(\theta) = -n \ln \theta - \frac{\sum x_i}{\theta}\]
- MLE 계산:
\[\frac{d}{d\theta} \ln L(\theta) = -\frac{n}{\theta} + \frac{\sum x_i}{\theta^2} = 0\]
\[\hat{\theta} = \frac{1}{n} \sum x_i\]
즉, 지수 분포의 최대 우도 추정량은 표본 평균이다.
(2) 이항 분포(Binomial Distribution)
- 확률질량함수(PMF):
\[P(X = k) = \binom{n}{k} p^k (1 - p)^{n-k}\]
- 우도 함수:
\[L(p) = \prod_{i=1}^{n} p^{x_i} (1 - p)^{1 - x_i}\]
- 로그 우도 함수:
\[\ln L(p) = k \ln p + (n - k) \ln (1 - p)\]
- MLE 계산:
\[\frac{d}{dp} \ln L(p) = \frac{k}{p} - \frac{n-k}{1-p} = 0\]
\[\hat{p} = \frac{k}{n} = \frac{1}{n} \sum X_i\]
즉, 이항 분포의 최대 우도 추정량은 표본 비율이다.
4. 최대 우도 추정량의 성질
1) 일반적으로 편향(bias)이 있을 수 있음
- 표본 분산의 경우, MLE는 편향되어 있어 \( \frac{1}{n} \) 대신 \( \frac{1}{n-1} \)을 사용하면 불편 추정량(unbiased estimator)이 됨.
2) 점근적 성질
- 최대 우도 추정량은 큰 표본에서 점근적으로 일치성(Consistency)과 효율성(Efficiency)을 가짐.
3) Fisher Information Inequality
- 크래머-라오 하한(Cramér-Rao Lower Bound)에 의해, MLE는 점근적으로 최소 분산을 갖는 효율적 추정량이 된다.
예제
1) 문제
(1) 정규 분포 \( N(\mu, \sigma^2) \)에서 표본 데이터 \( X_1, X_2, \dots, X_n \)이 주어졌을 때, \( \mu \)와 \( \sigma^2 \)의 최대 우도 추정량을 구하시오.
(2) 지수 분포를 따르는 표본 데이터 \( 2.1, 3.5, 4.2, 5.7, 3.9 \)가 주어졌을 때, 최대 우도 추정량 \( \hat{\theta} \)을 계산하시오.
(3) 포아송 분포 \( P(\lambda) \)를 따르는 표본 데이터 \( 1, 2, 3, 4, 3, 2, 1 \)이 주어졌을 때, \( \lambda \)의 최대 우도 추정량을 구하시오.
2) 답
(1) 정규 분포:
\[\hat{\mu} = \bar{X}, \quad \hat{\sigma}^2 = \frac{1}{n} \sum (X_i - \bar{X})^2\]
(2) 지수 분포:
\[\hat{\theta} = \frac{1}{5} (2.1 + 3.5 + 4.2 + 5.7 + 3.9) = 3.88\]
(3) 포아송 분포:
\[\hat{\lambda} = \frac{1}{7} (1 + 2 + 3 + 4 + 3 + 2 + 1) = 2.29\]
연습문제
1) 문제
(1) 정규 분포 \( N(\mu, \sigma^2) \)의 최대 우도 추정량을 직접 유도하시오.
(2) 지수 분포를 따르는 표본 데이터 \( 2.1, 3.5, 4.2, 5.7, 3.9 \)가 주어졌을 때, 최대 우도 추정량 \( \hat{\theta} \)을 계산하시오.
(3) 포아송 분포 \( P(\lambda) \)를 따르는 표본 데이터 \( 1, 2, 3, 4, 3, 2, 1 \)이 주어졌을 때, \( \lambda \)의 최대 우도 추정량을 구하시오.
2) 답
(1) 정규 분포
- 정규 분포의 확률밀도함수(PDF)는
\[f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( -\frac{(x-\mu)^2}{2\sigma^2} \right)\]
- 로그 우도 함수:
\[\ln L(\mu, \sigma^2) = -\frac{n}{2} \ln (2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum (x_i - \mu)^2\]
- 미분하여 최댓값을 찾으면:
\[\hat{\mu} = \frac{1}{n} \sum x_i, \quad \hat{\sigma}^2 = \frac{1}{n} \sum (x_i - \hat{\mu})^2\]
(2) 지수 분포
- 최대 우도 추정량 계산:
\[\hat{\theta} = \frac{1}{n} \sum x_i\]
- 데이터 대입:
\[\hat{\theta} = \frac{1}{5} (2.1 + 3.5 + 4.2 + 5.7 + 3.9) = 3.88\]
(3) 포아송 분포
- 최대 우도 추정량:
\[\hat{\lambda} = \frac{1}{n} \sum X_i\]
- 데이터 대입:
\[\hat{\lambda} = \frac{1}{7} (1 + 2 + 3 + 4 + 3 + 2 + 1) = 2.29\]
# R code
(1) 정규 분포의 MLE 계산
data <- c(2.1, 3.5, 4.2, 5.7, 3.9)
mu_hat <- mean(data)
sigma_hat <- var(data) (length(data) - 1) / length(data) n으로 나눔
print(mu_hat)
print(sigma_hat)
(2) 지수 분포의 MLE 계산
theta_hat <- mean(data)
print(theta_hat)
(3) 포아송 분포의 MLE 계산
poisson_data <- c(1, 2, 3, 4, 3, 2, 1)
lambda_hat <- mean(poisson_data)
print(lambda_hat)
# Python
import numpy as np
(1) 정규 분포의 MLE 계산
data = np.array([2.1, 3.5, 4.2, 5.7, 3.9])
mu_hat = np.mean(data)
sigma_hat = np.var(data, ddof=0) MLE에서는 n으로 나눔
print(mu_hat)
print(sigma_hat)
(2) 지수 분포의 MLE 계산
theta_hat = np.mean(data)
print(theta_hat)
(3) 포아송 분포의 MLE 계산
poisson_data = np.array([1, 2, 3, 4, 3, 2, 1])
lambda_hat = np.mean(poisson_data)
print(lambda_hat)
최대우도추정 (Maximum Likelihood Estimation, MLE) 보충자료
출처: Math 541: Statistical Theory II, Lecturer: Songfeng Zheng
1. 개요 및 정의
1) 최대우도추정(MLE)이란?
최대우도추정(Maximum Likelihood Estimation, MLE)은 미지의 모수 \(\theta\)를 추정하는 방법 중 가장 널리 사용되는 기법이다. 1912년 R.A. Fisher에 의해 제안되었으며, 샘플 크기가 클수록 강력한 추정량을 제공하는 특성을 갖는다.
- 직관적 접근:
특정 관측 데이터가 발생할 확률이 가장 높은 \(\theta\) 값을 선택하는 방법이다.
- 일반적인 적용:
연속형 확률변수와 이산형 확률변수 모두 적용 가능하다.
- 우도함수 (Likelihood Function):
\[
L(\theta) = f(x_1, x_2, \dots, x_n | \theta)
\]
- 확률밀도함수(PDF) 또는 확률질량함수(PMF)를 기반으로 구성된다.
- 관측된 데이터에 대해 \(\theta\)가 특정 값일 때 데이터가 나올 확률을 나타낸다.
2. MLE의 수학적 정의 및 계산 방법
1) 우도함수 (Likelihood Function)
확률변수 \( X_1, X_2, \dots, X_n \) 이 주어졌을 때,
확률밀도함수 또는 확률질량함수 \( f(x|\theta) \)가 다음과 같이 주어진다면:
- 연속형 확률변수의 경우:
\[
L(\theta) = f(x_1|\theta) f(x_2|\theta) \dots f(x_n|\theta) = \prod_{i=1}^{n} f(x_i|\theta)
\]
- 이산형 확률변수의 경우:
\[
L(\theta) = P(X_1 = x_1 | \theta) P(X_2 = x_2 | \theta) \dots P(X_n = x_n | \theta) = \prod_{i=1}^{n} P(X_i = x_i | \theta)
\]
즉, 관측된 샘플이 주어졌을 때, 우도함수 \( L(\theta) \)를 최대화하는 \(\theta\)를 찾는 것이 MLE의 목표이다.
2) 로그 우도함수 (Log-Likelihood Function)
우도함수는 곱셈 형태이므로 직접 최대화하기 어렵다. 이를 해결하기 위해 로그 변환을 취하여 로그 우도함수를 정의한다.
\[
l(\theta) = \log L(\theta) = \sum_{i=1}^{n} \log f(X_i|\theta)
\]
- 로그 함수는 단조 증가 함수이므로, 우도함수 \(L(\theta)\)를 최대화하는 것과 로그 우도함수 \(l(\theta)\)를 최대화하는 것은 동일한 문제이다.
- 로그 우도함수를 미분하여 0이 되는 \(\theta\) 값을 찾으면 MLE를 구할 수 있다.
\[
\frac{d}{d\theta} l(\theta) = 0
\]
3. MLE 예제
예제 1: 이산형 확률변수에서의 MLE
문제:
\( X \)가 아래의 확률질량함수(PMF)를 따르는 이산형 확률변수라고 하자. 여기서 \( \theta \)는 미지의 모수이다.
\[
P(X = 0) = \frac{2\theta}{3}, \quad
P(X = 1) = \frac{\theta}{3}, \quad
P(X = 2) = \frac{2(1-\theta)}{3}, \quad
P(X = 3) = \frac{(1-\theta)}{3}
\]
10개의 독립적인 샘플이 다음과 같이 주어졌다고 가정하자.
\[
(3,0,2,1,3,2,1,0,2,1)
\]
MLE를 이용하여 \( \theta \)를 추정하시오.
해결 방법:
1) 우도함수 작성
\[
L(\theta) = \prod_{i=1}^{n} P(X_i | \theta)
\]
2) 로그 우도함수 계산
\[
l(\theta) = C + 5\log \theta + 5\log (1 - \theta)
\]
3) 미분하여 MLE 구하기
\[
\frac{d}{d\theta} l(\theta) = \frac{5}{\theta} - \frac{5}{1 - \theta} = 0
\]
4) 해를 구하면
\[
\hat{\theta}_{MLE} = 0.5
\]
즉, MLE 추정치는 \(\theta = 0.5\)이다.
예제 2: 연속형 확률변수에서의 MLE
문제:
\( X_1, X_2, \dots, X_n \) 이 평균이 0이고 분산이 \( \sigma \) 인 지수 분포를 따른다고 하자.
즉, 확률밀도함수(PDF)는 다음과 같다.
\[
f(x|\sigma) = \frac{1}{2\sigma} \exp\left(-\frac{|x|}{\sigma}\right)
\]
MLE를 이용하여 \( \sigma \)를 추정하시오.
해결 방법:
1) 로그 우도함수 작성
\[
l(\sigma) = \sum_{i=1}^{n} \left( -\log 2 - \log \sigma - \frac{|X_i|}{\sigma} \right)
\]
2) 미분하여 MLE 구하기
\[
\frac{d}{d\sigma} l(\sigma) = -\frac{n}{\sigma} + \frac{\sum_{i=1}^{n} |X_i|}{\sigma^2} = 0
\]
3) 해를 구하면
\[
\hat{\sigma}_{MLE} = \frac{1}{n} \sum_{i=1}^{n} |X_i|
\]
즉, MLE 추정치는 샘플의 평균 절대값이다.
4. MLE의 성질
MLE는 많은 좋은 성질을 갖고 있다.
1) 일치성 (Consistency): 샘플 크기가 증가할수록 참값 \(\theta\)에 수렴한다.
2) 불편성 (Unbiasedness, 조건부): 큰 샘플 크기에서 불편한 추정량이 될 가능성이 높다.
3) 효율성 (Efficiency): 최소 분산을 갖는 최적의 추정량에 가깝다.
4) 정규성 (Asymptotic Normality): 충분히 큰 샘플에서 정규 분포를 따른다.
5. 결론
최대우도추정(MLE)은 모수 추정에서 가장 널리 사용되는 방법 중 하나이며, 강력한 성질을 가진다. 특히 샘플 크기가 커질수록 MLE의 성능이 매우 우수해지므로, 실용적인 통계 분석에서 필수적인 도구로 활용된다.
MLE의 핵심 개념
1. 모집단의 분포가 특정 형태(예: 정규분포, 지수분포 등)를 따른다고 가정합니다.
2. 표본 데이터가 주어졌을 때, 해당 데이터가 발생할 확률(우도, likelihood)을 최대화하는 모수 \(\theta\)를 찾습니다.
3. 즉, MLE는 주어진 데이터를 가장 잘 설명할 수 있는 확률분포의 모수를 선택하는 방법입니다.
예제 1: 정규 분포의 평균과 분산 추정
만약 모집단이 정규분포 \( N(\mu, \sigma^2) \)를 따른다고 가정하면, 우리는 \(\mu\)와 \(\sigma^2\)를 모르는 상태에서 MLE를 이용하여 이 값을 추정할 수 있습니다.
- 확률밀도함수(PDF):
\[
f(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right)
\]
- \( n \)개의 독립적인 표본 데이터 \( x_1, x_2, \dots, x_n \)이 주어졌을 때, 우도함수는 다음과 같습니다.
\[
L(\mu, \sigma^2) = \prod_{i=1}^{n} f(x_i | \mu, \sigma^2)
\]
- 이를 로그 변환하면 로그 우도함수가 됩니다.
\[
l(\mu, \sigma^2) = -\frac{n}{2} \log (2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2
\]
- 이 함수를 미분하여 \(\mu\)와 \(\sigma^2\)를 최대로 만드는 값을 찾으면 다음과 같습니다.
\[
\hat{\mu}_{MLE} = \frac{1}{n} \sum_{i=1}^{n} x_i, \quad \hat{\sigma^2}_{MLE} = \frac{1}{n} \sum_{i=1}^{n} (x_i - \hat{\mu})^2
\]
즉, MLE를 통해 표본 평균과 표본 분산이 정규분포의 모수 \(\mu, \sigma^2\)에 대한 최적 추정량임을 알 수 있습니다.
예제 2: 동전 던지기에서 MLE 사용
동전을 던졌을 때, 앞면이 나올 확률을 \( p \)라고 하겠습니다. 만약 동전을 \( n \)번 던졌을 때, 앞면이 \( k \)번 나왔다면, MLE를 이용하여 \( p \)를 추정할 수 있습니다.
- 베르누이 분포(이항 분포의 특수한 경우)에서의 확률 질량 함수(PMF):
\[
P(X = k | p) = p^k (1 - p)^{n - k}
\]
- 우도함수(Likelihood Function):
\[
L(p) = p^k (1 - p)^{n - k}
\]
- 로그 우도함수(Log-Likelihood Function):
\[
l(p) = k \log p + (n - k) \log (1 - p)
\]
- 미분하여 최댓값을 찾으면:
\[
\frac{d}{dp} l(p) = \frac{k}{p} - \frac{n - k}{1 - p} = 0
\]
- MLE로 추정한 \( p \) 값:
\[
\hat{p}_{MLE} = \frac{k}{n}
\]
즉, MLE를 사용하면 동전을 던졌을 때 앞면이 나올 확률 \( p \)를 표본 비율 \( k/n \)로 추정할 수 있습니다.
MLE는 표본 데이터가 주어졌을 때, 해당 데이터를 가장 잘 설명하는 모집단의 모수를 추정하는 방법입니다.
- 모집단의 분포 형태를 알고 있다면, 표본 데이터를 이용하여 최적의 모수 \(\theta\)를 찾을 수 있습니다.
- 샘플 크기가 클수록 MLE는 정확한 모수 추정값을 제공합니다.
- 실용적인 통계 분석에서 최적의 확률 모델을 찾는 데 필수적인 도구입니다.
크래머-라오 하한(Cramér-Rao Lower Bound)
1. 크래머-라오 하한(CRLB)의 개념
크래머-라오 하한(Cramér-Rao Lower Bound, CRLB)은 어떤 불편한 추정량(unbiased estimator)이 가질 수 있는 최소 분산을 제공하는 중요한 이론이다. 즉, 모수(parameter)를 추정하는 모든 불편한 추정량의 분산은 CRLB보다 작을 수 없다.
- CRLB는 최적 추정량(optimal estimator)을 판단하는 기준이 된다.
- 불편 추정량 중에서 최소 분산을 가지는 추정량(MVUE, Minimum Variance Unbiased Estimator)이 존재한다면, 그 분산은 CRLB에 도달해야 한다.
2. 수학적 정의
추정해야 할 모수 \(\theta\)에 대해, 확률밀도함수 \( f(x | \theta) \)를 갖는 표본 \( X_1, X_2, \dots, X_n \)이 주어졌다고 하자.
이때, 임의의 불편 추정량 \( \hat{\theta} \)의 분산은 다음을 만족한다.
\[\\]
여기서, \( I(\theta) \)는 피셔 정보(Fisher Information)라고 불리며, 다음과 같이 정의된다.
\[I(\theta) = - E \left[ \frac{d^2}{d\theta^2} \log f(X | \theta) \right]\]
즉, CRLB는 피셔 정보의 역수로 주어진다.
3. 증명
CRLB의 증명은 코시-슈바르츠 부등식(Cauchy-Schwarz inequality)를 이용하여 유도된다.
1) 우도함수(Likelihood Function)와 로그 우도함수(Log-Likelihood Function)
\[L(\theta) = f(x_1, x_2, \dots, x_n | \theta)\]
\[l(\theta) = \log L(\theta)\]
2) 로그 우도함수의 편미분: Score Function
\[S(\theta) = \frac{d}{d\theta} l(\theta)\]
이 함수는 평균이 0이다.
\[E[S(\theta)] = E\left[ \frac{d}{d\theta} \log f(X | \theta) \right] = 0\]
3) 피셔 정보(Fisher Information) 정의
\[I(\theta) = E \left[ S^2(\theta) \right]\]
4) 코시-슈바르츠 부등식 적용
\[\text{Var}(\hat{\theta}) \geq \frac{1}{I(\theta)}\]
이를 통해 불편 추정량의 분산이 피셔 정보의 역수보다 작을 수 없음을 보인다.
4. CRLB의 의미
1) CRLB는 최소 가능한 분산을 제공한다.
- 불편한 추정량이 CRLB에 도달하면 최적의 추정량이 된다.
- 이를 최소 분산 불편 추정량(MVUE)이라고 한다.
2) 피셔 정보가 클수록, 더 정확한 추정이 가능하다.
- 피셔 정보 \( I(\theta) \)가 크면 CRLB가 작아지고, 추정의 정확성이 높아진다.
- 피셔 정보가 작으면 CRLB가 커지므로, 추정값의 분산이 증가한다.
5. 예제
예제 1: 정규분포에서 평균 \(\mu\) 추정
표본 \( X_1, X_2, \dots, X_n \)이 정규분포 \( N(\mu, \sigma^2) \)에서 독립적으로 추출되었다고 하자. 즉,
\[X_i \sim N(\mu, \sigma^2)\]
MLE를 이용하여 평균 \(\mu\)의 추정량을 구하고, CRLB를 계산하자.
1) 로그 우도함수
\[l(\mu) = -\frac{n}{2} \log (2\pi\sigma^2) - \sum_{i=1}^{n} \frac{(X_i - \mu)^2}{2\sigma^2}\]
2) 피셔 정보 계산
\[I(\mu) = - E \left[ \frac{d^2}{d\mu^2} l(\mu) \right] = \frac{n}{\sigma^2}\]
3) CRLB 계산
\[\text{Var}(\hat{\mu}) \geq \frac{1}{I(\mu)} = \frac{\sigma^2}{n}\]
즉, 모집단 평균 \(\mu\)에 대한 불편 추정량의 분산은 \(\sigma^2 / n\)보다 작을 수 없다.
실제로 표본평균 \(\bar{X}\)의 분산은 \(\sigma^2 / n\)이므로, \(\bar{X}\)는 최소 분산 불편 추정량(MVUE)이다.
예제 2: 베르누이 분포에서 \( p \) 추정
베르누이 분포를 따르는 확률변수 \( X_i \sim \text{Bernoulli}(p) \)에서 \( p \)의 CRLB를 구하자.
1) 로그 우도함수
\[l(p) = \sum_{i=1}^{n} \left[ X_i \log p + (1 - X_i) \log (1 - p) \right]\]
2) 피셔 정보 계산
\[I(p) = - E \left[ \frac{d^2}{dp^2} l(p) \right] = \frac{n}{p(1 - p)}\]
3) CRLB 계산
\[\text{Var}(\hat{p}) \geq \frac{1}{I(p)} = \frac{p(1 - p)}{n}\]
즉, 베르누이 분포에서 \( p \)의 불편 추정량은 최소 분산이 \( p(1 - p) / n \)보다 작을 수 없다.
표본비율 \( \hat{p} = \frac{1}{n} \sum X_i \)의 분산은 정확히 \( p(1 - p) / n \)이므로, \( \hat{p} \)는 최소 분산 불편 추정량(MVUE)이다.
6. 요약
- 크래머-라오 하한(CRLB)은 불편한 추정량이 가질 수 있는 최소 분산을 제공한다.
- 피셔 정보(Fisher Information)가 클수록 추정량의 분산이 작아지고, 더 정확한 추정이 가능하다.
- CRLB에 도달하는 추정량이 있다면, 이는 최적의 불편 추정량(MVUE)이다.
- MLE는 일반적으로 CRLB에 근접하는 좋은 성질을 가지므로 널리 사용된다.
'통계' 카테고리의 다른 글
| 6.6 Asymptotic Distributions of Maximum Likelihood Estimators (0) | 2025.01.03 |
|---|---|
| 6.5 A Simple Regression Problem (1) | 2025.01.03 |
| 6.3 Order Statistics (0) | 2025.01.03 |
| 6.2 Point Estimation -Exploratory Data Analysis (0) | 2025.01.03 |
| 6.1 Point Estimation -Descriptive Statistics (0) | 2025.01.03 |