* 본 블로그 포스트에서 사용된 표, 이미지 및 기타 관련 자료는 "PROBABILITY AND STATISTICAL INFERENCE 9th Edition"에서 발췌한 것입니다. 이 자료들은 내용을 요약하고 이해를 돕기 위한 참고용으로 제공됩니다. 또한, 해석 과정에서 일부 오류가 있을 수 있으니 원본을 참고하여 확인하시기 바랍니다
1. 이론 정리
1) 개념 설명
단일 확률변수의 함수는 주어진 확률변수 \(X\)를 함수 \(Y = g(X)\)를 통해 변환했을 때의 새로운 확률변수 \(Y\)의 분포를 계산하는 방법을 의미합니다. 이는 확률밀도함수(PDF)를 활용하여 변환 후의 확률분포를 계산하는 데 중점을 둡니다.
2) 정의 및 이론
1. 확률변수 변환
- 확률변수 \(X\)의 확률밀도함수가 \(f_X(x)\)일 때, \(Y = g(X)\)의 확률밀도함수 \(f_Y(y)\)는 다음과 같이 정의됩니다.
\[f_Y(y) = f_X(x) \left| \frac{dx}{dy} \right|\]
여기서 \(\frac{dx}{dy}\)는 \(g(X)\)의 역함수의 도함수 절댓값입니다.
2. 단조 함수 변환
- \(g(X)\)가 단조 증가 또는 감소 함수일 경우, 변환 과정이 간단합니다.
- 이 경우, \(g(X) = y\)를 만족하는 유일한 \(X\)값을 사용하여 확률밀도함수를 계산합니다.
3. 비단조 함수 변환
- \(g(X)\)가 단조가 아닐 경우, 정의역을 여러 구간으로 나누어 각 구간에서 단조로 만드는 방식으로 계산합니다. 각 구간별 확률밀도를 합하여 최종 결과를 얻습니다.
3) 증명
단조 증가 함수 \(g(X)\)에 대해 \(Y = g(X)\)의 확률밀도함수를 유도하는 과정:
1. \(P(Y \leq y) = P(X \leq g^{-1}(y))\).
2. \(F_Y(y) = F_X(g^{-1}(y))\).
3. 미분하면 \(f_Y(y) = f_X(x) \cdot \left| \frac{dx}{dy} \right|\).
2. 예제
1) 문제
1. \(X \sim U(0,1)\), \(Y = X^2\)일 때 \(Y\)의 확률밀도함수를 구하시오.
2. \(X \sim N(0,1)\), \(Y = |X|\)일 때 \(Y\)의 확률밀도함수를 구하시오.
3. \(X \sim Exp(1)\), \(Y = \ln(X)\)일 때 \(Y\)의 확률밀도함수를 구하시오.
2) 답
1. \(X \sim U(0,1)\), \(Y = X^2\)일 때 \(Y\)의 확률밀도함수
풀이:
- 1단계: 분포의 변환 기법
\(X\)가 \(U(0,1)\)에 따라 균등 분포를 따르므로, \(X\)의 확률밀도함수는 \(f_X(x) = 1\) (\(0 \leq x \leq 1\))입니다.
- 2단계: 변환된 변수 \(Y\)의 범위
\(Y = X^2\)이므로 \(X\)가 \(0 \leq X \leq 1\)일 때 \(Y\)의 범위는 \(0 \leq Y \leq 1\)입니다.
- 3단계: 역함수와 절대값의 계산
\(Y = X^2\)를 풀면 \(X = \sqrt{Y}\) 또는 \(X = -\sqrt{Y}\)가 되지만, \(X \geq 0\)이므로 \(X = \sqrt{Y}\)만 고려합니다.
역함수의 미분은 \(\frac{dx}{dy} = \frac{1}{2\sqrt{y}}\)입니다.
- 4단계: 밀도 함수의 변환
변환된 확률밀도함수는
\[f_Y(y) = f_X(x) \left| \frac{dx}{dy} \right| = 1 \cdot \frac{1}{2\sqrt{y}} = \frac{1}{2\sqrt{y}}\]
입니다.
- 5단계: 최종 확률밀도함수
\(f_Y(y) = \frac{1}{2\sqrt{y}}, \, 0 \leq y \leq 1\).
2. \(X \sim N(0,1)\), \(Y = |X|\)일 때 \(Y\)의 확률밀도함수
풀이:
- 1단계: 분포의 성질 활용
\(X \sim N(0,1)\)는 평균 0, 분산 1의 정규 분포이며, 확률밀도함수는 \(f_X(x) = \frac{1}{\sqrt{2\pi}} e^{-x^2/2}\)입니다.
- 2단계: 절대값 변환
\(Y = |X|\)로 정의되었으므로, \(Y\)는 항상 0 이상입니다. \(X \geq 0\)일 때 \(Y = X\), \(X < 0\)일 때 \(Y = -X\)가 성립합니다. 따라서,
\[f_Y(y) = f_X(y) + f_X(-y).\]
- 3단계: 계산
정규 분포의 밀도 함수는 대칭이므로 \(f_X(-y) = f_X(y)\)입니다. 이를 대입하면:
\[f_Y(y) = 2f_X(y) = 2 \cdot \frac{1}{\sqrt{2\pi}} e^{-y^2/2}.\]
- 4단계: 최종 확률밀도함수
\(f_Y(y) = \frac{2}{\sqrt{2\pi}} e^{-y^2/2}, \, y \geq 0\).
3. \(X \sim Exp(1)\), \(Y = \ln(X)\)일 때 \(Y\)의 확률밀도함수
풀이:
- 1단계: 분포 정의
\(X \sim Exp(1)\)의 확률밀도함수는 \(f_X(x) = e^{-x}, \, x \geq 0\)입니다.
- 2단계: 변수 변환
\(Y = \ln(X)\)로 정의됩니다. 이 경우 \(X = e^Y\)가 성립하며, \(Y\)의 범위는 \(-\infty < Y < \infty\)입니다.
- 3단계: 역함수와 절대값 계산
\(X = e^Y\)이므로, \(\frac{dx}{dy} = e^Y\)입니다. 따라서 \(|\frac{dx}{dy}| = e^Y\)입니다.
- 4단계: 밀도 함수 변환
변환된 확률밀도함수는
\[
f_Y(y) = f_X(x) \left| \frac{dx}{dy} \right| = e^{-e^y} \cdot e^y = e^y e^{-e^y}.
\]
- 5단계: 최종 확률밀도함수
\(f_Y(y) = e^y e^{-e^y}, \, -\infty < y < \infty\).
3. 연습문제
1) 문제
1. \(X \sim U(0,3)\), \(Y = X^2\). \(Y\)의 확률밀도함수를 구하시오.
2. \(X \sim N(2,1)\), \(Y = X^3\). \(Y\)의 분포를 근사적으로 구하시오 (중심극한정리 사용).
3. \(X \sim Exp(\lambda=2)\), \(Y = X^2\). \(Y\)의 확률밀도함수를 구하시오.
2) 답
1. \(X \sim U(0,3)\), \(Y = X^2\)일 때 \(Y\)의 확률밀도함수
풀이:
- 1단계: \(X\)의 확률밀도함수
\(X \sim U(0,3)\)는 균등 분포로, 확률밀도함수는 다음과 같습니다:
\[
f_X(x) =
\begin{cases}
\frac{1}{3}, & 0 \leq x \leq 3, \\
0, & \text{otherwise}.
\end{cases}
\]
- 2단계: \(Y = X^2\)의 범위
\(X \in [0,3]\)이므로 \(Y = X^2\)의 범위는 \(Y \in [0,9]\)입니다.
- 3단계: 역함수 및 미분 계산
\(Y = X^2\)에서 \(X = \sqrt{Y}\)입니다. \(X \geq 0\)이므로 부호를 고려할 필요는 없습니다.
\(\frac{dx}{dy} = \frac{1}{2\sqrt{y}}\).
- 4단계: 밀도 함수 변환
\(Y\)의 확률밀도함수는 다음과 같이 계산됩니다:
\[
f_Y(y) = f_X(x) \left| \frac{dx}{dy} \right|.
\]
\(f_X(x) = \frac{1}{3}\), \(\left| \frac{dx}{dy} \right| = \frac{1}{2\sqrt{y}}\)이므로:
\[
f_Y(y) =
\begin{cases}
\frac{1}{3} \cdot \frac{1}{2\sqrt{y}} = \frac{1}{6\sqrt{y}}, & 0 \leq y \leq 9, \\
0, & \text{otherwise}.
\end{cases}
\]
2. \(X \sim N(2,1)\), \(Y = X^3\)일 때 \(Y\)의 분포 (중심극한정리 사용)
풀이:
- 1단계: 중심극한정리의 개념
\(X^3\)는 \(X\)의 비선형 변환으로, 정확한 분포는 계산이 어렵습니다. 그러나 \(X \sim N(2,1)\)에서 중심극한정리를 적용하여 \(X^3\)의 근사 분포를 구할 수 있습니다.
- 2단계: \(Y = g(X) = X^3\)에서 평균과 분산 계산
\(X \sim N(2,1)\)일 때, \(g(X) = X^3\)에 대해 평균과 분산은 테일러 전개로 근사할 수 있습니다:
\[
\mu_Y \approx g(\mu_X) + \frac{1}{2}g''(\mu_X)\sigma_X^2,
\]
\[
\sigma_Y^2 \approx (g'(\mu_X))^2 \sigma_X^2.
\]
- \(g(X) = X^3\), \(g'(\mu_X) = 3X^2\), \(g''(X) = 6X\).
- \(X\)의 평균 \(\mu_X = 2\), 분산 \(\sigma_X^2 = 1\).
계산:
\[
\mu_Y \approx g(2) + \frac{1}{2}g''(2)(1^2) = 2^3 + \frac{1}{2}(6 \cdot 2) = 8 + 6 = 14,
\]
\[
\sigma_Y^2 \approx (g'(2))^2 \sigma_X^2 = (3 \cdot 2^2)^2 \cdot 1 = 144.
\]
- 3단계: 근사 분포
\(Y\)의 분포는 \(N(14, 144)\)로 근사할 수 있습니다:
\[
Y \sim N(14, 144).
\]
3. \(X \sim \text{Exp}(\lambda=2)\), \(Y = X^2\)일 때 \(Y\)의 확률밀도함수
풀이:
- 1단계: \(X\)의 확률밀도함수
\(X \sim \text{Exp}(\lambda=2)\)의 확률밀도함수는 다음과 같습니다:
\[
f_X(x) =
\begin{cases}
2e^{-2x}, & x \geq 0, \\
0, & \text{otherwise}.
\end{cases}
\]
- 2단계: \(Y = X^2\)의 범위 및 역함수
\(X \geq 0\)에서 \(Y = X^2\)이므로 \(Y \geq 0\)입니다.
역함수는 \(X = \sqrt{Y}\)이고, \(\frac{dx}{dy} = \frac{1}{2\sqrt{y}}\)입니다.
- 3단계: 밀도 함수 변환
변환된 확률밀도함수는:
\[
f_Y(y) = f_X(x) \left| \frac{dx}{dy} \right|.
\]
\(f_X(\sqrt{y}) = 2e^{-2\sqrt{y}}\), \(\left| \frac{dx}{dy} \right| = \frac{1}{2\sqrt{y}}\)이므로:
\[
f_Y(y) =
\begin{cases}
2e^{-2\sqrt{y}} \cdot \frac{1}{2\sqrt{y}} = \frac{e^{-2\sqrt{y}}}{\sqrt{y}}, & y > 0, \\
0, & \text{otherwise}.
\end{cases}
\]
# R code
# 문제 1
y <- seq(0, 9, length=100)
f_Y <- 1 / (6 sqrt(y))
plot(y, f_Y, type='l')
# 문제 2
library(stats)
n <- 1000
x <- rnorm(n, mean=2, sd=1)
y <- x^3
hist(y, probability=TRUE)
# 문제 3
lambda <- 2
y <- seq(0.01, 10, length=100)
f_Y <- sqrt(2)/(4 sqrt(y)) exp(-y/2)
plot(y, f_Y, type='l')
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm, expon
# 문제 1
y = np.linspace(0.01, 9, 100)
f_Y = 1 / (6 np.sqrt(y))
plt.plot(y, f_Y)
plt.title("PDF of Y = X^2, X ~ U(0,3)")
plt.show()
# 문제 2
n = 1000
x = np.random.normal(2, 1, n)
y = x3
plt.hist(y, bins=30, density=True)
plt.title("Histogram of Y = X^3, X ~ N(2,1)")
plt.show()
# 문제 3
y = np.linspace(0.01, 10, 100)
f_Y = (np.sqrt(2) / 4) (y-0.5) np.exp(-y / 2)
plt.plot(y, f_Y)
plt.title("PDF of Y = X^2, X ~ Exp(2)")
plt.show()
1. 테일러 전개란?
테일러 전개는 복잡한 함수를 단순하게 근사하는 방법입니다.
어떤 함수 \( g(X) \)가 있을 때, 이 함수를 특정한 값 \( X = \mu_X \) 근처에서 간단한 다항식 형태로 표현할 수 있습니다.
\[g(X) \approx g(\mu_X) + g'(\mu_X)(X - \mu_X) + \frac{g''(\mu_X)}{2}(X - \mu_X)^2 + \cdots\]
각각의 항의 의미:
1. \( g(\mu_X) \): \( X = \mu_X \)일 때의 함수 값. \( g(X) \)를 \( \mu_X \)에서의 값으로 근사.
2. \( g'(\mu_X)(X - \mu_X) \): \( X \)가 \( \mu_X \)에서 약간 벗어났을 때, 함수의 변화(기울기)를 반영.
3. \( \frac{g''(\mu_X)}{2}(X - \mu_X)^2 \): \( X \)의 변동성(분산)이 \( g(X) \)에 미치는 비선형적인 영향을 보정.
2. 평균 \(\mathbb{E}[g(X)]\) 계산에서 왜 2차까지만 사용하는가?
1) 기대값 근사의 시작:
평균 \(\mathbb{E}[g(X)]\)를 계산할 때, \( g(X) \)가 정확히 계산되지 않는 경우가 많습니다.
따라서 함수 \( g(X) \)를 테일러 전개로 근사한 뒤, 그 근사값의 평균을 계산합니다.
\[\mathbb{E}[g(X)] \approx \mathbb{E}\left[g(\mu_X) + g'(\mu_X)(X - \mu_X) + \frac{g''(\mu_X)}{2}(X - \mu_X)^2\right].\]
2) 각각의 항의 기여도 분석:
- \( g(\mu_X) \): 상수이므로 평균에 그대로 반영.
\[\mathbb{E}[g(\mu_X)] = g(\mu_X).\]
- \( g'(\mu_X)(X - \mu_X) \): \( X \)가 평균 \(\mu_X\)에서 벗어난 정도를 반영. \( \mathbb{E}[X - \mu_X] = 0 \)이므로 이 항은 소멸.
\[\mathbb{E}[g'(\mu_X)(X - \mu_X)] = g'(\mu_X) \cdot \mathbb{E}[X - \mu_X] = 0.\]
- \( \frac{g''(\mu_X)}{2}(X - \mu_X)^2 \): \( (X - \mu_X)^2 \)의 평균은 분산 \(\sigma_X^2\)이므로:
\[\mathbb{E}\left[\frac{g''(\mu_X)}{2}(X - \mu_X)^2\right] = \frac{g''(\mu_X)}{2} \cdot \sigma_X^2.\]
3) 최종 결과:
\[\mathbb{E}[g(X)] \approx g(\mu_X) + \frac{1}{2}g''(\mu_X)\sigma_X^2.\]
왜 2차까지만 사용하는가?
- 실용성: 2차 항 이후의 고차 항은 \( X \)의 높은 차수 변동에 대한 기여를 포함하지만, 대부분의 경우 효과가 미미합니다.
- 복잡성 감소: 고차 항을 포함하면 계산이 매우 복잡해집니다.
- 충분한 정확성: 함수가 적절히 매끄럽다면 2차 항까지만 포함해도 근사가 충분히 정확합니다.
3. 분산 \(\text{Var}(g(X))\) 계산에서 왜 1차 항만 사용하는가?
분산은 \( g(X) \)의 변화(즉, 기울기)가 어떻게 \( X \)의 변동성에 영향을 미치는지 나타냅니다.
1) 테일러 전개로 근사:
분산 계산을 단순화하기 위해 \( g(X) \)를 1차 도함수까지만 근사합니다:
\[g(X) \approx g(\mu_X) + g'(\mu_X)(X - \mu_X).\]
여기서 \( g''(\mu_X) \) 이상의 항을 무시하는 이유는, 고차 항이 \( X \)의 변동성에 상대적으로 작은 영향을 미치기 때문입니다.
2) 분산 계산:
테일러 전개 근사를 분산에 대입하면:
\[\text{Var}(g(X)) = \text{Var}\left(g(\mu_X) + g'(\mu_X)(X - \mu_X)\right).\]
- \( g(\mu_X) \): 상수이므로 분산에 기여하지 않음.
- \( g'(\mu_X)(X - \mu_X) \): 상수 \( g'(\mu_X) \)에 의해 스케일이 조정된 \( (X - \mu_X) \)의 분산만 기여:
\[\text{Var}(g(X)) \approx (g'(\mu_X))^2 \cdot \text{Var}(X).\]
\[\text{Var}(g(X)) \approx (g'(\mu_X))^2 \cdot \sigma_X^2.\]
왜 1차까지만 사용하는가?
- 분산은 \( X \)의 선형적인 변동성에 민감하며, 고차 항은 \( g(X) \)의 분산 계산에서 기여도가 작기 때문에 생략 가능합니다.
- \( g'(\mu_X) \)만으로도 \( g(X) \)의 변화를 적절히 설명할 수 있습니다.
4. 요약
1. 평균:
- \( g(X) \)의 비선형 효과를 반영하려면 2차 항까지 포함해야 합니다.
- 고차 항은 계산 복잡성을 증가시키며, 대부분의 경우 필요하지 않습니다.
2. 분산:
- 분산은 \( g'(X) \)만으로도 \( g(X) \)의 변동성을 충분히 설명할 수 있으므로, 1차 항까지만 사용합니다.
ps) 평균과 분산 모두 테일러 전개의 더 높은 차수(예: 3차, 4차)를 사용해도 수학적으로는 가능합니다. 다만, 실제 계산에서 고차 항의 기여도가 작아 효율성과 정확성을 고려할 때 더 높은 차수를 생략하는 것이 일반적입니다.