참고 문헌:
1. 서강대 AI MBA 데이터마이닝 강의교재 (2023)
2. Müller, A. C., & Guido, S. (2016). *Introduction to Machine Learning with Python*. 1st Edition. O’Reilly Media, Inc., Sebastopol, CA. ISBN: 978-1449369415.
- 최대우도법 (Maximum Likelihood Estimation, MLE)
최대우도법(Maximum Likelihood Estimation, MLE)은 통계학에서 매우 중요한 방법론으로, 주어진 데이터에 가장 잘 맞는 확률분포의 모수를 추정하는 방법이다. 이 방법은 데이터가 관측된 확률분포로부터 생성되었다고 가정하고, 그 데이터가 발생할 가능성을 최대화하는 모수(parameter)를 찾는 데 사용된다.
1. 최대우도법의 기본 개념
최대우도법은 관측된 데이터가 주어졌을 때, 주어진 모델 내에서 가장 가능성(likelihood)이 높은 모수값을 찾는 과정이다. 여기서 우도(likelihood)는 주어진 모수 하에서 데이터가 관측될 확률을 나타낸다. 예를 들어, 데이터가 \(\mathbf{X} = \{x_1, x_2, \ldots, x_n\}\)일 때, 모수 \(\theta\)에 대한 우도 함수 \(L(\theta)\)는 다음과 같이 정의된다.
$L(\theta \mid \mathbf{X}) = P(\mathbf{X} \mid \theta) = \prod_{i=1}^{n} P(x_i \mid \theta)$
2. 로그 우도 함수
우도 함수는 곱의 형태를 가지기 때문에, 로그 우도 함수(log-likelihood function)를 사용하여 계산을 단순화할 수 있다. 로그 우도 함수는 우도 함수의 로그를 취한 것으로, 다음과 같이 표현된다.
$\ell(\theta \mid \mathbf{X}) = \log L(\theta \mid \mathbf{X}) = \sum_{i=1}^{n} \log P(x_i \mid \theta)$
이 로그 우도 함수 \(\ell(\theta \mid \mathbf{X})\)를 최대화하는 \(\theta\) 값을 찾는 것이 최대우도법의 목표다.
3. 예시: 정규분포의 최대우도 추정
정규분포 \( \mathcal{N}(\mu, \sigma^2) \)에서 모수 \(\mu\)와 \(\sigma^2\)를 최대우도법으로 추정해보자.
정규분포의 확률 밀도 함수 \(f(x \mid \mu, \sigma^2)\)는 다음과 같다.
\[f(x \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)\]
로그 우도 함수는 다음과 같이 된다:
\[\ell(\mu, \sigma^2 \mid \mathbf{X}) = \sum_{i=1}^{n} \log \left( \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right) \right)\]
이를 최대화하는 \(\mu\)와 \(\sigma^2\)를 찾으면, 다음과 같은 결과를 얻을 수 있다:
\[\hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} x_i, \quad \hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \hat{\mu})^2\]
4. 직관적인 이해
최대우도법의 직관적인 이해를 돕기 위해, 위에서 설명한 정규분포의 예를 생각해보자. 주어진 데이터 세트에서 평균 \(\mu\)와 분산 \(\sigma^2\)를 추정하려고 할 때, 최대우도법은 이 데이터가 관측될 가능성이 최대가 되는 값을 찾는다. 이 과정에서, 가장 가능성이 높은 \(\mu\)와 \(\sigma^2\)는 데이터의 평균과 분산과 일치하게 된다.
5. 시각적 예시
아래의 그래프는 정규분포의 최대우도 추정을 시각적으로 보여줍니다. 데이터 포인트가 주어졌을 때, 최대우도법은 그 데이터에 가장 잘 맞는 분포를 찾습니다.
이 그래프에서 곡선은 주어진 데이터에 대해 추정된 확률 밀도 함수를 나타내며, 이 곡선이 데이터 포인트들을 가장 잘 설명하도록 최대우도법이 모수를 추정한다.

- 최대우도법을 사용하여 평균 μ와 분산 σ2를 추정 하는 방법 예시
정규분포를 따르는 데이터에 대해 최대우도법을 사용하여 평균 \(\mu\)와 분산 \(\sigma^2\)를 추정하는 방법을 단계별로 설명해본다.
1. 데이터
우리가 가진 데이터 \(\mathbf{X} = \{x_1, x_2, \ldots, x_n\}\)가 정규분포 \(\mathcal{N}(\mu, \sigma^2)\)를 따른다고 가정하고, 이 데이터에서 \(\mu\)와 \(\sigma^2\)를 추정해보자.
2. 우도 함수 (Likelihood Function)
정규분포에서 하나의 데이터 포인트 \(x_i\)의 확률 밀도 함수는 다음과 같다:
\[
f(x_i \mid \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right)
\]
전체 데이터 \(\mathbf{X}\)에 대한 우도 함수 \(L(\mu, \sigma^2 \mid \mathbf{X})\)는 각 데이터 포인트에 대한 확률 밀도 함수의 곱으로 표현된다:
\[
L(\mu, \sigma^2 \mid \mathbf{X}) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right)
\]
3. 로그 우도 함수 (Log-Likelihood Function)
우도 함수는 곱의 형태로 표현되기 때문에, 계산의 복잡성을 줄이기 위해 로그를 취한 로그 우도 함수를 사용한다:
\[
\ell(\mu, \sigma^2 \mid \mathbf{X}) = \log L(\mu, \sigma^2 \mid \mathbf{X}) = \sum_{i=1}^{n} \log \left( \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x_i-\mu)^2}{2\sigma^2}\right) \right)
\]
로그 우도 함수는 다음과 같이 간단히 표현된다:
\[
\ell(\mu, \sigma^2 \mid \mathbf{X}) = -\frac{n}{2} \log(2\pi\sigma^2) - \frac{1}{2\sigma^2} \sum_{i=1}^{n} (x_i - \mu)^2
\]
4. 최대화
이제 로그 우도 함수 \(\ell(\mu, \sigma^2 \mid \mathbf{X})\)를 \(\mu\)와 \(\sigma^2\)에 대해 최대화하여, 가장 가능성(likelihood)이 높은 모수들을 찾는다.
4.1. 평균 \(\mu\)에 대한 최적화
로그 우도 함수를 \(\mu\)에 대해 편미분하고, 그 값을 0으로 놓아 \(\mu\)를 최대화한다:
\[
\frac{\partial \ell(\mu, \sigma^2 \mid \mathbf{X})}{\partial \mu} = \frac{1}{\sigma^2} \sum_{i=1}^{n} (x_i - \mu) = 0
\]
이를 풀면, 최적의 \(\mu\)는 다음과 같다:
\[
\hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} x_i
\]
즉, 데이터의 평균이 \(\mu\)의 최대우도 추정값이다.
4.2. 분산 \(\sigma^2\)에 대한 최적화
로그 우도 함수를 \(\sigma^2\)에 대해 편미분하고, 그 값을 0으로 놓아 \(\sigma^2\)를 최대화한다:
\[
\frac{\partial \ell(\mu, \sigma^2 \mid \mathbf{X})}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2\sigma^4} \sum_{i=1}^{n} (x_i - \mu)^2 = 0
\]
이를 풀면, 최적의 \(\sigma^2\)는 다음과 같다:
\[
\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^{n} (x_i - \hat{\mu})^2
\]
즉, 데이터의 분산이 \(\sigma^2\)의 최대우도 추정값이다.
최대우도법을 통해, 데이터의 평균 \(\mu\)와 분산 \(\sigma^2\)를 각각 데이터의 평균과 분산으로 추정할 수 있음을 알 수 있다. 이 방법은 정규분포 외에도 다양한 확률분포에 적용할 수 있으며, 매우 강력한 통계적 추정 방법으로 널리 사용된다.
'데이터분석' 카테고리의 다른 글
| Chapter 2. 지도학습(Supervised learning): Naive Bayes classifier (1) | 2024.09.02 |
|---|---|
| Chapter 2. 지도학습(Supervised learning): SVM (0) | 2024.08.27 |
| Chapter 2. 지도학습(Supervised learning): Linear Models (0) | 2024.08.26 |
| Chapter 2. 지도학습(Supervised learning): K- Nearest Neighbors (0) | 2024.08.26 |
| Chapter1. Instruction (1) | 2024.08.26 |